- 使用技术:Requests,Scrapy, RabbitMQ, XXL-JOB, Xpath,正则表达式,SimHash,分布式,搭建网站采集配置化页面
- 项目描述:主要采集光伏太阳能相关的网站以及相应技术网站的数据,保存到内部的MongoDB;商情系统通过对特定信息的检索来给客户进行数据的展示,以了解当前技术以及相关政策法规。
- 项目实施:
- 使用requests 多线程 多进程 搭建分布式爬虫框架(将下载器,调度器,解析器,数据处理模块进行解耦,信息的交互使用队列)来实现数据的高效稳定采集,并搭建采集配置页面进行网站配置来进行数据的采集而不用再写爬虫脚本来实现数据的采集;
- 针对反爬措施,搭建 ip池,cookie池,账号池,以及Splash等服务
- 其中使用simhash局部敏感hash来进行数据的去重操作,
- 任务的优先级调度使用XXL-JOB框架。