基本信息

案例ID:149197

技术顾问:junkman - 4年经验 - 北大方正

联系沟通

微信扫码,建群沟通

项目名称:出版大数据采集

所属行业:企业服务 - 数据服务

->查看更多案例

案例介绍

- 使用技术:使用Requests,多线程,搭建爬虫框架,mysql, selenium, chromedriver
- 项目描述:采集天猫,豆瓣,京东,当当,标准书目网,amazon网站的全量图书信息以及评论信息,并对图书销量以及口碑进行评估并将结果推送给出版商
- 项目实施:
- 通过对天猫,豆瓣,京东,当当,标准书目网,amazon网站的全量图书进行采集并添加到数据库。
- 负责各个站点分为全量采集、新添采集、目录采集、单品信息采集,通过抓包方式获取需要的基本信息,排名,收藏数,更多商家,评论,评价,价格,销量等最终url来获取需要内容;天猫采集列表页和更多商家页的请求通过登录cookie来增加成功率,数据写入数据库,cookie的获取通过torndo异步服务获取,通过这种方式获取站点全量;
- 采集数据量:共5000万左右的图书数据。
- 反爬措施:天猫图书的列表页翻页三页左右会出现滑动验证码,使用chromedriver进行操作实现列表页的翻页;搭建cookie来实现cookie的获取。

相似案例推荐

其他人才的相似案例推荐

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服