基本信息

案例ID:154806

技术顾问:一叶扁舟 - 10年经验 - 华为

联系沟通

微信扫码,建群沟通

项目名称:知识图谱-爬虫组

所属行业:企业服务 - 数据服务

->查看更多案例

案例介绍

该项目是公司智能搜索业务部子项目之一,主要负责海量数据的采集、清洗、抽取、存储等业务。数据来源主要通过爬虫获取。采集的数据网址涵盖全球,有中、英、法、德、意、日、韩、阿、俄等多国语言。数据领域涉及音乐、视频、体育、美食、旅游、酒店、地图、图片、票房、股票、证券、天气等等。系统部署在香港、新加坡、印度等多个国家。通过压力控制中心合理分配各个站点的爬取压力,实现了链接选取,子链递归爬取,新链发现,死链判断,定时爬取、动态渲染、动态代理等功能。数据通过kafka传递,topic流量峰值达到600万+,爬虫qps达到15万,成功率87%左右,每日有效爬取量110亿。

相似案例推荐

其他人才的相似案例推荐

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服