1、2年以上网络爬虫开发经验;
2.熟悉python/javascript语言,熟悉Linux开发环境和常用命令;
3.熟悉mysql、 redis , nosq等熟悉Internet基本协议(如TCP/IP. HTTP等);
4.熟悉htm/css/xpath/ajax/xml等常用web知识熟悉selenium等常用爬虫技术
5.精通|网页抓取原理及技术,熟悉正则表达式,从结构化的和非结构化的数据中获取信息;
6.能够解决封账号、封IP采集等问题解决网页抓取、信息抽取等问题构建完善的网络信息收集平台;
WechatSogou 微信公众号爬虫。基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典。
DouBanSpider 豆瓣读书爬虫。可以爬下豆瓣读书标签下的所有图书,按评分排名依次存储,存储到Excel中,可方便大家筛选搜罗,比如筛选评价人数>1000的高分书籍;可依据不同的主题存储到Excel不同的Sheet ,采用User Agent伪装为浏览器进行爬取,并加入随机延时来更好的模仿浏览器行为,避免爬虫被封。
zhihu_spider 知乎爬虫。此项目的功能是爬取知乎用户信息以及人际拓扑关系,爬虫框架使用scrapy,数据存储使用mongo