猿急送>

上海其它兼职程序员

ID：155962

仗剑天涯

爬虫高级开发工程师

公司信息：
上海百度研发中心

工作经验：
3年

兼职日薪：
1000元/8小时

兼职时间：
下班后
周六
周日
可工作日远程

所在区域：
上海
浦东
纳贤路701号

技术能力

本人现从事爬虫，大数据工作。具有五年爬虫经验，能够破解爬取拥有各种反爬措施的网站，熟练使用MySQL、PostgreSQL、Redis、MongoDB数据库，熟练使用多进程，分布式等技术完成项目。曾独立开发完成日数据量达千万以上某大型电商平台共30家店铺数据获取并清洗入库工作。
目前合作过的客户有：
- 昼光科技领英数据获取
- 吉祥钼业漫画图片获取
- 直觉信息生意参谋聊天数据获取，天猫/京东/苏宁内部数据获取
等等

项目经验

1 采集电商商品数据信息
* 利用scrapy框架，结合selenium动态渲染，采集1688网站某类商品信息
* 将采集信息保存到MongoDB，将图片下载到本地
* 熟练使用CSS选择器解析，使用scrapy/selenium/requests/pyautogui/datetime等模块

2 采集新浪微博信息
* 采集新浪微博大V关注、粉丝、微博，递归采集，较好的处理了反爬
* Ajax请求分析，时间格式处理，数据清洗与存储，对接代理池、Cookies池

3 采集手机APP信息
* 爬取微信朋友圈/京东商品信息评论信息/安居客房价信息/得到书籍信息/boss直聘招聘信息
* 熟练使用appium
* 使用mitmdump监听APP实时数据

4 其他经验
* 实现了币安网、哔哩哔哩、春秋航空、12306等登录验证的破解
* 熟悉并会使用各种反反爬措施，包括headers，cookies，代理池，验证码识别（图形、极验、点触等）
* 爬取了淘宝/哔哩哔哩/中华网科技新闻/微信公众号/币安网/天眼查等网站
* 熟悉分布式爬虫、docker部署，使用Git管理项目代码