出版大数据采集

猿急送>北京兼职程序员>junkman>

案例列表

基本信息

案例ID：149197

技术顾问：junkman - 4年经验 - 北大方正

微信扫码，建群沟通

项目名称：出版大数据采集

所属行业：企业服务 - 数据服务

->查看更多案例

案例介绍

- 使用技术：使用Requests，多线程，搭建爬虫框架，mysql， selenium, chromedriver
- 项目描述：采集天猫，豆瓣，京东，当当，标准书目网，amazon网站的全量图书信息以及评论信息，并对图书销量以及口碑进行评估并将结果推送给出版商
- 项目实施：
- 通过对天猫，豆瓣，京东，当当，标准书目网，amazon网站的全量图书进行采集并添加到数据库。
- 负责各个站点分为全量采集、新添采集、目录采集、单品信息采集，通过抓包方式获取需要的基本信息，排名，收藏数，更多商家，评论，评价，价格，销量等最终url来获取需要内容；天猫采集列表页和更多商家页的请求通过登录cookie来增加成功率，数据写入数据库，cookie的获取通过torndo异步服务获取，通过这种方式获取站点全量；
- 采集数据量：共5000万左右的图书数据。
- 反爬措施：天猫图书的列表页翻页三页左右会出现滑动验证码，使用chromedriver进行操作实现列表页的翻页；搭建cookie来实现cookie的获取。

案例图片

点击查看他的更多案例

相似案例推荐

其他人才的相似案例推荐

移动信息平台

移动办公系统，jsp网站，sdk1.8,整合springmv
Face用户画像

BI数据分析可视化系统，可根据用户定制选用多种图表展示用户画
实时平安墙

在大屏上用图表动态展示后台数据实时变化，主要负责前端框架选型
财服通

项目介绍: 公司的19年主推项目，用于管道水工的日常工作任
ROOMS(APP)

该APP主要是用于某电厂的培训与考核管理，我主要负责的功能：
运行人员核安全文化素养评价与诊断系统

我在该项目中负责web前端开发，主要的工作是 1、根据u
公司武器库

有各种组件，为组内共同开发，本人负责维护此组件库，运用svg
嘟嘟作业

息进行人工审核，对于不符合条件的申请记录进行打回，并提供具
BPM日常维护管理平台

本作品主要是针对bpm系统日常运维提供快速分析和解决问题提供
Api网关-ResfulWebApi接口

1、根据公司的信息化建设的战略规划，自研开发一套高内聚的中心
OA医疗办公系统

该系统为公司内部办公系统。拥有人员管理、客户管理、财务模
某房产数据获取

获取某房产的整站数据，获取其房屋出租、出售价格，地段等信息，

联系需求方端客服

热门标签列表

程序员接私活程序员兼职企业外包外包案例

热门城市人才

北京兼职程序员上海兼职程序员广州兼职程序员深圳兼职程序员杭州兼职程序员成都兼职程序员天津兼职程序员重庆兼职程序员武汉兼职程序员西安兼职程序员南京兼职程序员长沙兼职程序员苏州兼职程序员厦门兼职程序员福州兼职程序员合肥兼职程序员济南兼职程序员青岛兼职程序员大连兼职程序员长春兼职程序员沈阳兼职程序员哈尔滨兼职程序员石家庄兼职程序员太原兼职程序员无锡兼职程序员南昌兼职程序员洛阳兼职程序员郑州兼职程序员南宁兼职程序员珠海兼职程序员宁波兼职程序员昆明兼职程序员东莞兼职程序员贵阳兼职程序员温州兼职程序员佛山兼职程序员中山兼职程序员海口兼职程序员常州兼职程序员兰州兼职程序员呼和浩特兼职程序员乌鲁木齐兼职程序员海外兼职程序员其他兼职程序员山东兼职程序员远程兼职程序员

热门城市职位

北京程序员招聘上海程序员招聘广州程序员招聘深圳程序员招聘杭州程序员招聘成都程序员招聘天津程序员招聘重庆程序员招聘武汉程序员招聘西安程序员招聘南京程序员招聘长沙程序员招聘苏州程序员招聘厦门程序员招聘福州程序员招聘合肥程序员招聘济南程序员招聘青岛程序员招聘大连程序员招聘长春程序员招聘沈阳程序员招聘哈尔滨程序员招聘石家庄程序员招聘太原程序员招聘无锡程序员招聘南昌程序员招聘洛阳程序员招聘郑州程序员招聘南宁程序员招聘珠海程序员招聘宁波程序员招聘昆明程序员招聘东莞程序员招聘贵阳程序员招聘温州程序员招聘佛山程序员招聘中山程序员招聘海口程序员招聘常州程序员招聘兰州程序员招聘呼和浩特程序员招聘乌鲁木齐程序员招聘海外程序员招聘其他程序员招聘山东程序员招聘远程程序员招聘

热门人才推荐

热门职位推荐

iOS工程师Android工程师前端工程师后端工程师嵌入式工程师UI设计师产品经理测试工程师运维工程师游戏工程师运营/编辑其它

找人才 | 接项目 | 招聘专员 | 京ICP备16030138号-1 | Copyright © 2015-2024 猿急送