基于python的豆瓣读书爬虫

基本信息

案例ID:212941

技术顾问:IMG - 1年经验 - 微软

联系沟通

微信扫码,建群沟通

项目名称:基于python的豆瓣读书爬虫

所属行业:教育 - 兴趣教学

->查看更多案例

案例介绍

基于Python的豆瓣读书的爬虫,方便大家搜罗各种美美书!
爬了一遍豆瓣图书数据,爬下了3000000+条目,这次爬的时候特意爬取了每个图书页面中的“喜欢读XX的人也喜欢条目XX”,最近对数据进行了处理和可视化做了这个新的WebApp。该App每本书作为一个节点包含评价人数、评分、被链接数(类似Google的RankPage算法根据网页被链接的数目来排网页的重要性,一般越好的书籍被链接的数目也越多)、链入的图书节点、链出的图书节点等信息。
实现功能
1 可以爬下豆瓣读书标签下的所有图书
2 按评分排名依次存储
3 存储到Excel中,可方便大家筛选搜罗,比如筛选评价人数>1000的高分书籍;可依据不同的主题存储到Excel不同的Sheet
4 采用User Agent伪装为浏览器进行爬取,并加入随机延时来更好的模仿浏览器行为,避免爬虫被封(更新于 2015-5-20)

相似案例推荐

其他人才的相似案例推荐

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服