精通Python爬虫, 有丰富的数据爬取、解析、清洗、存储相关项目工作经验,并熟悉常见的反爬虫技术及其突破方案;
熟悉网络编程(TCP/HTTP 协议),多线程、多进程相关知识,有大型分布式爬虫经验;
熟悉各类验证码,有丰富的验证码破解经验,成功破解图片验证码、滑块验证码、微博宫格验证码等多种主流验证码。
有丰富的APP爬取经验,能够利用mitmproxy/Charles等HTTP/HTTPS工具进行app信息爬取
舆情监测项目
根据客户指定的行业方向/监测关键字,通过对微博、主流门户网站、微信公众号、视频网站等主流互联网媒体进行大规模的爬虫数据采集,得到舆情监测报告基础数据,并进行数据清洗,以及简要的维度统计。
责任描述:
1、负责爬虫整体项目环境的搭建,采用Scrapy-redis框架进行分布式爬虫,并使用布隆过滤器实现高效的爬虫队列。
2、负责微博爬虫开发,使用Selenium模拟微博登陆,获取Cookie并搭建Cookie,并对接代理池,有效减少微博反爬封号。
3、负责门户网站爬虫开发,实现简单的调度模块对接Scrapy,进行每日自动爬虫。
4、负责视频网站app端爬虫开发,通过手机端CA证书截取网络通信数据,实现信息爬取