1.勤奋认真,对工作兢兢业业
2.好的沟通和理解需求的能力,能对上级交代的任务准确无误完成
3.熟练掌握爬虫requests. scrapy. scrapy-redis爬虫流程.掌握正则表达式。xpath提取网页资源方法。
4.熟悉各个网站常见反爬策略,能根据网页分析出常见反爬手段
5.熟悉前端代码,可以分析目标网站真实request地址和response内容,使用代理试水网站反爬虫级别,检
测是否有投毒数据。
豆瓣读书爬虫。可以爬下豆瓣读书标签下的所有图书,按评分排名依次存储,存储到Excel中,可方便大家筛选搜罗,比如筛选评价人数>1000的高分书籍;可依据不同的主题存储到Excel不同的Sheet ,采用User Agent伪装为浏览器进行爬取,并加入随机延时来更好的模仿浏览器行为,避免爬虫被封。
Python爬虫代理IP池(proxy pool)。
等等
爬取英雄联盟的全皮肤,分析网页找出要用的数据进行数据筛选,然后通过Python的模块进行爬取目标数据,该功能为自己开发。
爬取豆瓣TOP250榜单,影视图片+影视评分以及影视片名,通过XPATH进行数据的获取与筛选,该功能模块均为本人开发。