基本信息

案例ID:225935

技术顾问:Lik ²⁰²⁵ - 3年经验 - 国防科大外包

联系沟通

微信扫码,建群沟通

项目名称:开源典型数据集

所属行业:企业服务 - 云计算

->查看更多案例

案例介绍

爬取模块包括采集规则、爬取任务、过程监控三个菜单,该模块主要可以自定义爬虫的基本信息和爬取逻辑,每个网站的爬取可能存在数个爬虫,数个爬虫通过协作的方式完成对某个网站数据爬取。该系统使用协程来完成诸如请求、存储等IO操作,使得爬取速度很快,速度大于多线程爬取速度,并且占用的内存资源很低。在这套系统中,每个爬虫都有着一条的行为链,表示爬虫运行时要执行的一系列行为动作,每一个行为都是一个爬虫系统里的行为组件,所以可以任意搭配不同的行为组件使得爬虫完成特定的行为。

相似案例推荐

其他人才的相似案例推荐

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服