- 使用技术:使用Requests,多线程,搭建爬虫框架,mysql, selenium, chromedriver
- 项目描述:采集天猫,豆瓣,京东,当当,标准书目网,amazon网站的全量图书信息以及评论信息,并对图书销量以及口碑进行评估并将结果推送给出版商
- 项目实施:
- 通过对天猫,豆瓣,京东,当当,标准书目网,amazon网站的全量图书进行采集并添加到数据库。
- 负责各个站点分为全量采集、新添采集、目录采集、单品信息采集,通过抓包方式获取需要的基本信息,排名,收藏数,更多商家,评论,评价,价格,销量等最终url来获取需要内容;天猫采集列表页和更多商家页的请求通过登录cookie来增加成功率,数据写入数据库,cookie的获取通过torndo异步服务获取,通过这种方式获取站点全量;
- 采集数据量:共5000万左右的图书数据。
- 反爬措施:天猫图书的列表页翻页三页左右会出现滑动验证码,使用chromedriver进行操作实现列表页的翻页;搭建cookie来实现cookie的获取。