熟悉linux平台开发,精通Python或者Java,熟悉常用的爬虫框架和工具;
熟悉MongoDB、Redis、Mysql,掌握MQ,了解HBase、KAFKA等;
熟悉HTTP协议,熟悉正则表达式、XPath、CSS选择器等,了解常用验证码识别技术;
能独立解决实际开发过程碰到的各类问题。
豆瓣、猫眼
责任描述:
编写python爬虫程序、想出反爬虫策越、数据清洗、分表存储、维护代理ip池
项目简介:
项目概述:
爬取豆瓣、猫眼的电影信息
遇到问题及解决方案如下:
1、数据量较少、用requests爬取
2、需要的数据通过抓包返回json数据
3、转字典提取想要的数据
4、保存在MongoDB
5、使用logging模块编写监控爬虫程序,并且根据日期定向输出日志到log文件
12306订票 责任描述: 编写python爬虫程序、想出反爬虫策越 项目简介: 项目概述: 12306模拟登陆、12306查票、12306订票 遇到问题及解决方案如下: 1、数据量较少、用requests爬取 2、需要的数据通过抓包返回json数据 3、转字典
喜马拉雅试听破解 责任描述: 编写python爬虫程序、想出反爬虫策越、数据清洗、分表存储、维护代理ip池 项目简介: 项目概述: 进行喜马拉雅试听音频破解 遇到问题及解决方案如下: 1、数据量较少、用requests爬取 2、需要进行js解密 3、转字典提取想