一、目标网站: 天猫,京东等电商。
使用资源: 阿里云服务器,拨号VPS代理、讯代理, redis,kafka,spark,hive,hbase等 …
开发过程:
设计爬取策略爬取商品品类对应的全部url,商品价格、和商品评论,促销信息等。
利用scrapy-redis开发分布式采集程序
评论图片存入存入阿里云oss上。
分布式爬虫集群部署利用fabric部署在阿里云服务器。
结果利用redis做缓存数据库,利用spark开发流式处理流程,数据通过kafka存入hive和hbase。
解决淘宝app端的算法并实现app端的采集