淘宝、京东等电商网站采集

基本信息

案例ID:188722

技术顾问:一诺 - 6年经验 - 北京奥维云网大数据科技股份有限公司

联系沟通

微信扫码,建群沟通

项目名称:淘宝、京东等电商网站采集

所属行业:人工智能 - 其他

->查看更多案例

案例介绍

一、目标网站: 天猫,京东等电商。
使用资源: 阿里云服务器,拨号VPS代理、讯代理, redis,kafka,spark,hive,hbase等 …
开发过程:
设计爬取策略爬取商品品类对应的全部url,商品价格、和商品评论,促销信息等。
利用scrapy-redis开发分布式采集程序
评论图片存入存入阿里云oss上。
分布式爬虫集群部署利用fabric部署在阿里云服务器。
结果利用redis做缓存数据库,利用spark开发流式处理流程,数据通过kafka存入hive和hbase。
解决淘宝app端的算法并实现app端的采集

相似案例推荐

其他人才的相似案例推荐

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服