1、熟练掌握 requests,scrapy,scrapy-redis模块发送请求,获取响应后处理网页数据,熟练构建分布式爬虫,Linux下的定时启动爬虫
2、熟悉C++,Python
3、熟练使用正则表达式、xpath、Selenium、PhantomJS提取网页元素 ,利用Charles, Appium对app的爬取
4、熟练使用requests和scrapy、selenium的模拟登录
5、能熟练使用打码平台处理常见验证码
6、会Django开发web后台
7、熟练使用mysql、redis、MongoDB的增删改查
8、会使用QT
项目概况: 爬取京东、当当、苏宁图书所有分类下的 遇到问题及解决方案如下: 1、爬取量较大,用scrapy-redis爬取,因为该框架实现url和数据去重、持久化、构建RedisSpider分布式爬虫,爬取更快 2、需要携带cookie访问网页内容,采用ip代理 3、处理反爬策略,url地址需要删除一些字段可以获取json数据 4、使用logging模块编写监控程序进行爬虫监控,并根据日期定向输出日志到log文件
编写爬虫程序,想出反反爬策略,数据清洗,分表存储,维护代理ip池,负责带新人