数据流向:
使用Clickhouse的kafka引擎拉取Kafka数据到clickhouse本地集群,通过物化试图对数据进行消费,写入到分布式表中。summingMergeTree引擎基于ReplicatdMergeTree进行预聚合,并设置数据的 TTL 生命周期。通过WaterDrop从Hive中把历史数据导入对应的summingMergeTree引擎的表中。提供实时的多维聚合查询。
离线架构:
MySql -> Spark-SQL(平台封装工具) -> Hive ->Spark-sql(WaterDrop) -> clickhouse
实时架构:
MySql(binlog) -> canal -> Kafka -> Flink -> (kafka,HDFS) -> clickhouse
项目描述:
离线模块接入数据后,进行脱敏,降噪,降维等操作,建设公司电商平台的公共数据应用层,支持数分和数据产品的需求分析。实时模块实现按时间地区统计GVM(黄金坑位GMV,订单数等等),实时PV,UV等指标监控大屏,实现自定义数据分析系统。