scrapy 爬虫数据抓取
redis 利用redis实现分布式,存储url和去重指纹等
kafka 负责数据传输,数据中间件
hadoop 负责数据存储, hbase存储文件
spark 负责数据etl(离线处理)
flink 负责数据etl(实时处理)
elasticsearch 日志存储,监控
docker 爬虫部署
负责公司爬虫项目,利用scrapy 抓取amazon、twitter、facebook。redis实现分布式,docker负责部署,elk负责日志记录,kafka作为中间件,hbase存储数据。