junkman的案例列表

商情系统

企业服务-数据服务 junkman

- 使用技术:Requests,Scrapy, RabbitMQ, XXL-JOB, Xpath,正则表达式,SimHash,分布式,搭建网站采集配置化页面 - 项目描述:主要采集光伏太阳能相关的网站以及相应技术网站的数据,保存到内部的MongoDB;商情系统通过对特定信息的检索来给客户进行数据的展示,以了解当前技术以及相关政策法规。 - 项目实施: - 使用requests 多线程 多进程 搭建分布式爬虫框架(将下载器,调度器,解析器,数据处理模块进行解耦,信息的交互使用队列)来实现数据的高效稳定采集,并搭建采集配置页面进行网站配置来进行数据的采集而不用再写爬虫脚本来实现数据的...

商情系统
商情系统
商情系统

出版大数据采集

企业服务-数据服务 junkman

- 使用技术:使用Requests,多线程,搭建爬虫框架,mysql, selenium, chromedriver - 项目描述:采集天猫,豆瓣,京东,当当,标准书目网,amazon网站的全量图书信息以及评论信息,并对图书销量以及口碑进行评估并将结果推送给出版商 - 项目实施: - 通过对天猫,豆瓣,京东,当当,标准书目网,amazon网站的全量图书进行采集并添加到数据库。 - 负责各个站点分为全量采集、新添采集、目录采集、单品信息采集,通过抓包方式获取需要的基本信息,排名,收藏数,更多商家,评论,评价,价格,销量等最终url来获取需要内容;天猫采集列表页和更多商...

出版大数据采集
出版大数据采集
------ 加载完毕 ------
联系需求方端客服