1.好的沟通和理解需求的能力,能对交代的任务准确无误完成
2.熟练掌握爬虫requests. scrapy. scrapy-redis爬虫流程.掌握正则表达式、xpath提取网页资源方法,
熟练构建分布式爬虫, Linux下的定时启动爬虫
3.熟悉各个网站常见反爬策略,能根据网页分析出常见反爬手段
4。熟悉前端代码。可以分析目标网站真实request地址和response内容。使用代理试水网站反爬虫级别。检
测是否有投毒数据。
5、针对不同反爬虫级别网站,做出具体Scrapy部署,使用工具包括不局限于:伪造User-Agent ,批量IP代
理池,设置并发数量及下载速度
6.使用logging模块编写监控程序进行爬虫监控,并根据日期定向输出日志到og文件
1. 瓜子二手车爬取数据项目
2. 豆瓣、猫眼爬取数据项目,爬取豆瓣、猫眼电影信息。
3. 房天下数据爬取项目,1.爬取养老网全国养老院名称,地址,价位、电话等信息
4. 外网网站数据爬取项目
基于python的游戏开发项目------飞机大战,包含操作键WSAD移动和空格键发射子弹、背景音乐的播放和简单的物理碰撞。运用python中精灵类开发并实践的项目。能运行在PC平台上并简单地进行游戏。
基于python的网站爬取项目,该项目主要功能为在https://www.duitang.com/上返回十张图片,关键字已存储在列表中,已经进行打包操作,可直接在windows上运行,运行后在当前目录生成一个img文件,在其中存放每次运行后下载的图片,一次下载十张图片。