项目描述 : 对D音的全方位的数据的挖掘,主要包括人物、视频、话题、音乐、商品、直播(弹幕、基础数据、大赏、 福袋、广告)等单日数据突破20亿以上。更新百万量级采用的是python协程分布式获取,千万量级采用的golang高并发采 集。队列系统采用的是SSDB、pika、redis进行去重和设计,数据统一放到kafka进行,大数据进行处理。日常也会协助大 数据开发进行处理 所有爬虫服务统一放到docker里面,结合rancher对docker进行监控 技术架构:Python + Golang + spark 数据库: ES、kafka、mysql、redis、mongodb、oss、ssdb、pika、clickhouse、adb-mysql、polarDB WEB服务:golang Gin框架 + python flask框架 + java spring boot API服务 + PHP swoft框架 I P服务:拨号搭建IP服务