基本信息

案例ID:149196

技术顾问:junkman - 4年经验 - 北大方正

联系沟通

微信扫码,建群沟通

项目名称:商情系统

所属行业:企业服务 - 数据服务

->查看更多案例

案例介绍

- 使用技术:Requests,Scrapy, RabbitMQ, XXL-JOB, Xpath,正则表达式,SimHash,分布式,搭建网站采集配置化页面
- 项目描述:主要采集光伏太阳能相关的网站以及相应技术网站的数据,保存到内部的MongoDB;商情系统通过对特定信息的检索来给客户进行数据的展示,以了解当前技术以及相关政策法规。
- 项目实施:
- 使用requests 多线程 多进程 搭建分布式爬虫框架(将下载器,调度器,解析器,数据处理模块进行解耦,信息的交互使用队列)来实现数据的高效稳定采集,并搭建采集配置页面进行网站配置来进行数据的采集而不用再写爬虫脚本来实现数据的采集;
- 针对反爬措施,搭建 ip池,cookie池,账号池,以及Splash等服务
- 其中使用simhash局部敏感hash来进行数据的去重操作,
- 任务的优先级调度使用XXL-JOB框架。

相似案例推荐

其他人才的相似案例推荐

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服