该项目是公司智能搜索业务部子项目之一,主要负责海量数据的采集、清洗、抽取、存储等业务。数据来源主要通过爬虫获取。采集的数据网址涵盖全球,有中、英、法、德、意、日、韩、阿、俄等多国语言。数据领域涉及音乐、视频、体育、美食、旅游、酒店、地图、图片、票房、股票、证券、天气等等。系统部署在香港、新加坡、印度等多个国家。通过压力控制中心合理分配各个站点的爬取压力,实现了链接选取,子链递归爬取,新链发现,死链判断,定时爬取、动态渲染、动态代理等功能。数据通过kafka传递,topic流量峰值达到600万+,爬虫qps达到15万,成功率87%左右,每日有效爬取量110亿。