基本信息

案例ID:207265

技术顾问:lixuepeng - 7年经验 - 保密

联系沟通

微信扫码,建群沟通

项目名称:永辉数据采集

所属行业:企业服务 - 数据服务

->查看更多案例

案例介绍

项目经验
新闻采集系统
•这是一个专门针对新闻这一类网页的分布式爬虫系统。该系统不限制抓取节点,不用担心被网站反扒,是一个非常完善的抓取系统。
•该爬虫系统包括查看任务状态(暂停,停止等),数据去重,任务监控(查看任务数据抓取量,成功率),自动暂停,代理设置,数据提取,智能解析网页 xpath 等功能。
•我负责该系统的部分前端(js 实现),部分后端服务(flask)实现,全部爬虫功能。

大规模数据采集框架
•使用 python 语言实现了大规模去重,任务调度的采集框架,可以支持日百万级别的采集量。

美团饿了么等电商店铺商品采集
•App项目:负责美团,饿了么,拼多多,永辉超市等app的逆向和采集工作。
•Web项目:饿了么,知乎等web页面的逆向,采集工作。简化5s盾,ob混淆等。
•饿了么日采集数据30w+,永辉日采集数据10w+。

相似案例推荐

其他人才的相似案例推荐

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服