电商实时数仓项目 2021.7-2021.9
项目介绍:
该项目针对业务需求统计实时指标,实现精细化运营及精确营销服务。使用Flume实时采集埋点日志、使用Flink CDC实时采集业务数据;使用流处理计算框架Flink实现多留合并和分组、开窗、聚合操作,使用Kafak构建分层的实时数仓(ODS、DWD、DWS),使用Hbase、Redis保存维度表,将DWS层数据实时写入ClickHouse。
主要技术:Flink CDC、Flume、Kafka、Flink、Redis、HBase、ClickHouse、DataV
任务描述:
1.整个项目模块包含数据采集、实时处理和前端可视化大屏展示;
2.使用 Flume 采集客户端埋点日志和 Flink CDC采集业务数据库 binlog 日志并保存到 Kafka 相应主题中;
3.使用侧输出流对日志流进行分流处理,将页面日志放到主流,启动、曝光、动作、错误放到侧输出流;
4.使用Flink SQL实现多流join,分组、开窗、聚合操作处理业务数据,使用Flink DateStream API过滤脏数据、日志分流,然后使用Flink SQL实现业务需求;
5.将DWS层的数据实时写入ClickHouse,提供即席查询服务。