1.有2年数据抓取开发经验
2.熟练掌握 python 编程语言,具有扎实的编程基础和良好的代码风格,
3.精通 python 编程语言,熟悉爬虫原理,常见的反爬虫技术和 cookie 的登录原理,具备丰富的爬虫开发经验,熟悉 scrapy,selenium 等开发框架
4.熟悉 html,css,javascript 等前端知识,掌握 web 界面的分析方法,熟练掌握 xpath ,正则等其中几种常用的信息抽取技术,具备良好的数据清洗和处理能力;
爬虫与数据分析项目(python)
根据需要爬取的数据进行需求分析,分析目标网站的网站结构和一些反爬手段,通过requests、scrapy、scrapy-redis、xpath等技术手段编写爬虫程序进行内容抓取
对抓取到的数据进行清洗过滤,结构化存到数据库,根据爬取过程中遇到的一些反爬手段,优化自己的程序对爬取到的数据,通过matplotlib生成直方图、条形图、散点图、饼图、词云等,多维度展示分析数据,并撰写数据分析报告,供需求方对数据有直观的了解使用python开发的51商城、BBS问答社区,智能停车场车牌识别计费系统,微信小程序如
看图猜成语小程序、今天吃什么小程序
爬取过的网站: 国外:Auction,BrandAuc,Ecoauc,Komehyo,Mekiki,Mercari,Starbuyers,Yahoo,洛杉矶房价信息。 国内:1688,Arrow,Datasheet,findic,华强,IC交易网,IC现货,德州仪器,安世,恩
某小破站弹幕评论数据爬取 利用aiohttp进行数据爬取(经过几次优化减少请求次数,优化爬取速度) 再用pyopenxl进行表格存储(客户要求存表格) 将up主为文件夹, 视频为xlsx, 弹幕、评论分别存个sheet
星辰运维开发平台项目是一个大型综合运维开发平台, 包含cmdb,监控告警,流程管理,权限管理,集成发布等功能的综合平台。告警级别分为5个级别,每个级别都有不同的严重程度,不同程度会发送钉钉,*,和短信,和语言等区分。长时间未处理的会进行告警升级,提交给领导等。Cmdb则是包括服