1、参与爬虫项目的架构设计、研发工作,改进和提升爬虫效率;
2、攻破各种反爬策略。解决各类技术疑难问题;
3、与大数据工程师对接,完成实时数据与离线数据的爬取与对接;
4、根据业务需要,主动搜罗并采集相关数据源。
技能:
1、计算机相关专业本科学历,两年以上相关工作经验;
2、精通Python开发语言;
3、熟练掌握一种开源爬虫框架,如scrapy、webmagic;
4、 熟悉Appium、Selenium等技术;
5、善于独立分析并解决核心问题,如JavaScript反爬、爬虫策略、防屏蔽规则、验证码识别技术等;
6、熟悉mysql, mongod等数据库;
7、对爬虫有浓厚的兴趣,责任感强,有较好的交流沟通能力和团队合作能力
1、WechatSogou - 微信公众号爬虫。基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典。
2、zhihu_spider- 知乎爬虫。此项目的功能是爬取知乎用户信息以及人际拓扑关系,爬虫框架使用scrapy,数据存储使用mongo。