本人现从事爬虫,大数据工作。 具有五年爬虫经验,能够破解爬取拥有各种反爬措施的网站,熟练使用MySQL、PostgreSQL、Redis、MongoDB数据库,熟练使用多进程,分布式等技术完成项目。 曾独立开发完成日数据量达千万以上某大型电商平台共30家店铺数据获取并清洗入库工作。
目前合作过的客户有:
- 昼光科技 领英数据获取
- 吉祥钼业 漫画图片获取
- 直觉信息 生意参谋聊天数据获取,天猫/京东/苏宁内部数据获取
等等
1 采集电商商品数据信息
* 利用scrapy框架,结合selenium动态渲染,采集1688网站某类商品信息
* 将采集信息保存到MongoDB,将图片下载到本地
* 熟练使用CSS选择器解析,使用scrapy/selenium/requests/pyautogui/datetime等模块
2 采集新浪微博信息
* 采集新浪微博大V关注、粉丝、微博,递归采集,较好的处理了反爬
* Ajax请求分析,时间格式处理,数据清洗与存储,对接代理池、Cookies池
3 采集手机APP信息
* 爬取微信朋友圈/京东商品信息评论信息/安居客房价信息/得到书籍信息/boss直聘招聘信息
* 熟练使用appium
* 使用mitmdump监听APP实时数据
4 其他经验
* 实现了币安网、哔哩哔哩、春秋航空、12306等登录验证的破解
* 熟悉并会使用各种反反爬措施,包括headers,cookies,代理池,验证码识别(图形、极验、点触等)
* 爬取了淘宝/哔哩哔哩/中华网科技新闻/微信公众号/币安网/天眼查等网站
* 熟悉分布式爬虫、docker部署,使用Git管理项目代码
获取某大型电商平台店家后台生意参谋表格数据; 获取某大型电商平台店家后台客服聊天数据; 获取某大型电商平台商品信息
突破登录限制大批量获取有价值信息; 多进程分布式获取; 和外包公司合作,两周内保质保量获取对方所需数据。