猿急送>

北京Python兼职程序员

ID：121945

蜉先生

Python爬虫工程师

公司信息：
造数

工作经验：
1年

兼职日薪：
500元/8小时

兼职时间：
周六
周日
可工作日远程

所在区域：
北京
全区
朝阳区

技术能力

1、爬虫框架\类库: Scrapy、Scrapy-Redis、Requests、urllib、Selenium、PhantomJS 数据抽取技术: Xpath、CSS、正则表达式
2、反爬应对技术: Cookie 登陆、IP 代理、打码验证等
3、网站前端: HTML、JavaScrapy、Ajax 、JQuery、Bootstrap
4、数据库相关: MySql、MongoDB、Redis、SQLite
5、版本管理与部署: Git、linux、Docker、CircleCI
6、熟悉:TCP/IP、HTTP 协议，多线程、多进程、异步网络通信熟悉:APP破解、网络抓包、数据清洗与分析
7、了解:Hadoop、kafka、TensorFlow
8、掌握语言:Python、Java
9、熟练算法结构与并发编程模型。
10、代码规范良好，两年开发经验，一年数据爬取经验，开朗乐观，有一定的抗压能力。

项目经验

# 二手房交易动态监控项目
## 简介:TD扩展了二手房交易业务，需要掌控实时全量线上链家、我爱我家等平台房源的价格。
## 负责:链家网二手房平台房源数据抓取、爬虫部署、维护。业绩:使用Scapy-Redis+MongoDb 进行分布式爬虫配置和开发，网站改版监控维护。
## 爬取链家新房、二手房、租房的房源详细信息，天更全国数据，采用Cookie池、IP池来应对反爬。逆向分析链家小程序、APP，开发主备爬虫(PC站和移动端)，提高数据准确性与稳定性。
使用 Docker+Circleci+SpiderKeeper, 进行爬虫自动化构建、部署、管理、监控。
项目实施后:稳定日更全国数据，受到了领导的表扬。
实现亮点:数据解析、数据处理、数据存储、爬虫控制这几方面。

# 链家租房，二手房项目：
## 项目说明：
链家项目中，主要的问题是数据只显示100 页面，也就是3000个数据，通过遍历房型数据进行筛选，获取链接北京地区2W多套二手房数据。再一个问题就是链接对同一个ip的访问时有一定限制的，这里通过编写代理池解决。最后就是数据提取与数据清洗

# 某宝商品数据抓取：
## 项目说明：
某宝项目中，主要遇到的问题是某宝的页面是js 动态渲染数据，而我又不喜欢上浏览器，影响爬取效率，于是分析了某宝的js 与流量，找到某宝搜索，某宝商品详情，某宝评论的json 接口，模拟数据请求，获得json 接口返回的数据，最后对某宝的评论数据做了自动化处理，生成统计图与评论词云。

# 优剪项目：
## 项目说明：
项目中，主要的技术是，逆向优剪公众号的请求头加密方式，精确到每一分钟进行一次数据爬取，根据爬取到的数据，计算出每个理发师的理发人数与GMV值