项目经验
新闻采集系统
•这是一个专门针对新闻这一类网页的分布式爬虫系统。该系统不限制抓取节点,不用担心被网站反扒,是一个非常完善的抓取系统。
•该爬虫系统包括查看任务状态(暂停,停止等),数据去重,任务监控(查看任务数据抓取量,成功率),自动暂停,代理设置,数据提取,智能解析网页 xpath 等功能。
•我负责该系统的部分前端(js 实现),部分后端服务(flask)实现,全部爬虫功能。
大规模数据采集框架
•使用 python 语言实现了大规模去重,任务调度的采集框架,可以支持日百万级别的采集量。
美团饿了么等电商店铺商品采集
•App项目:负责美团,饿了么,拼多多,永辉超市等app的逆向和采集工作。
•Web项目:饿了么,知乎等web页面的逆向,采集工作。简化5s盾,ob混淆等。
•饿了么日采集数据30w+,永辉日采集数据10w+。