1、爬虫框架\类库: Scrapy、Scrapy-Redis、Requests、urllib、Selenium、PhantomJS 数据抽取技术: Xpath、CSS、正则表达式
2、反爬应对技术: Cookie 登陆、IP 代理、打码验证等
3、网站前端: HTML、JavaScrapy、Ajax 、JQuery、Bootstrap
4、数据库相关: MySql、MongoDB、Redis、SQLite
5、版本管理与部署: Git、linux、Docker、CircleCI
6、熟悉:TCP/IP、HTTP 协议,多线程、多进程、异步网络通信 熟悉:APP破解、网络抓包、数据清洗与分析
7、了解:Hadoop、kafka、TensorFlow
8、掌握语言:Python、Java
9、熟练算法结构与并发编程模型。
10、代码规范良好,两年开发经验,一年数据爬取经验,开朗乐观,有一定的抗压能力。
# 二手房交易动态监控项目
## 简介:TD扩展了二手房交易业务,需要掌控实时全量线上链家、我爱我家等平台房源的价格。
## 负责:链家网二手房平台房源数据抓取、爬虫部署、维护。 业绩:使用Scapy-Redis+MongoDb 进行分布式爬虫配置和开发,网站改版监控维护。
## 爬取链家 新房、二手房、租房的房源详细信息,天更全国数据,采用Cookie池、IP池来应对反爬。 逆向分析链家小程序、APP,开发主备爬虫(PC站和移动端),提高数据准确性与稳定性。
使用 Docker+Circleci+SpiderKeeper, 进行爬虫自动化构建、部署、管理、监控。
项目实施后:稳定日更全国数据,受到了领导的表扬。
实现亮点:数据解析、数据处理、数据存储、爬虫控制这几方面。
# 链家租房,二手房项目:
## 项目说明:
链家项目中,主要的问题是数据只显示100 页面,也就是3000个数据,通过遍历房型数据进行筛选,获取链接北京地区2W多套二手房数据。再一个问题就是链接对同一个ip的访问时有一定限制的,这里通过编写代理池解决。最后就是数据提取与数据清洗
# 某宝商品数据抓取:
## 项目说明:
某宝项目中,主要遇到的问题是 某宝的页面是js 动态渲染数据,而我又不喜欢上浏览器,影响爬取效率,于是分析了 某宝的js 与流量,找到 某宝搜索,某宝商品详情, 某宝评论的json 接口,模拟数据请求,获得json 接口返回的数据,最后对某宝的评论数据做了自动化处理,生成统计图与评论词云。
# 优剪项目:
## 项目说明:
项目中,主要的技术是,逆向优剪公众号的请求头加密方式,精确到每一分钟进行一次数据爬取,根据爬取到的数据,计算出每个理发师的理发人数与GMV值