案例ID:225935
技术顾问:Lik ²⁰²⁵ - 3年经验 - 国防科大外包
联系沟通
项目名称:开源典型数据集
所属行业:企业服务 - 云计算
爬取模块包括采集规则、爬取任务、过程监控三个菜单,该模块主要可以自定义爬虫的基本信息和爬取逻辑,每个网站的爬取可能存在数个爬虫,数个爬虫通过协作的方式完成对某个网站数据爬取。该系统使用协程来完成诸如请求、存储等IO操作,使得爬取速度很快,速度大于多线程爬取速度,并且占用的内存资源很低。在这套系统中,每个爬虫都有着一条的行为链,表示爬虫运行时要执行的一系列行为动作,每一个行为都是一个爬虫系统里的行为组件,所以可以任意搭配不同的行为组件使得爬虫完成特定的行为。
其他人才的相似案例推荐
该系统后台主要面向ToB类型的软件开发企业,通过此产品管理系
1. 功能定位 - 提供自动化部署工具、DevO
由于民航业内的信息涉及国家安全和航空安全,必须严格遵守保密规
我主导过电商爬虫项目,运用 Python+Scrapy 搭建
主要负责环境搭建与数据准备与清洗,Spark指标分析和大数据
金蝶云·苍穹是金蝶集团推出的一款面向大企业的数字共生平台,也
1.基础环境部署,安装和配置Kubernetes集群。 2
北九方 项目 实施 2023.12-2024.04 1.负
在职期间主要负责网站后台维护优化,bug修改和新功能研发!
个人的邮箱系统。 具有邮箱协议的全部功能。 支持添加用户、
企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才
关注猿急送微信平台,接收实时人才推送