技术架构:Nginx、Springboot、Flume、Kafka、MqSQL、Sqoop、Hadoop、Zookeeper、HBase、Mysql、Azkaban、Atlas、Range、Griffin、Superset、Presto
腾讯云湖仓一体实时项目 2022.03-2024.04
技 术 架 构:FlinkCDC、firebeat、logstash、upsert-kafka、kafka、Flink、hudi。开发工具:IDEA + Oceanus流计算平台
项目描述:FlinkCDC将业务数据导入到Kafka的主题中,形成ods层.使用Flink对接Kafka,消费kafka中 的
数据至hudi,按照预定的数仓结构,使用hudi读和写的能力将ods层的业务数据经过Oceanus平台流式计算平台的处理 形成对应的dwd层放置在hudi中,日志埋点数据通过firebeat发往logstash再次发往MQ,输出到hudi中。
技术要点:
1.使用 FlinkCDC 将业务数据导入到 Kafka中的topic中(json or csv).
2.使用 Flink 读取kafka 层的业务数据,对数据进行逻辑加工设定成满足hudi配置的一些参数
3.读hudi表数据逻辑加工统计数据输出至hudi
4.Hudi新式框架的特性,表模式(mor,cow),buckert索引,插入(upsert insert)的模式等相关的一些知识点
5.Hudi表双流拼接功能解决流式join问题
6.流式任务,SparkSql操作hudi表(增删改查)对hudi表读任务的异常和下游数据回撤的功能
7.数据发往数据湖,数据倾斜致使某个bucket数据量变多,其它变少,致使写入hudi的小文件过多问题
8.Hudi表开启异步压缩,减少在线压缩内存的消耗。
9.Hudi写入背压增大,调节背压
流量监控各个阶段保证任务正常运行。
1.有离线与实时任务开发经验, 可以快速熟悉业务上手开发 2.有数仓建模经验,能够根据实际情况对指定任务进行优化 3.为人稳重负责,善于沟通,对新技术的研究有着充足的热情;具有良好的团队协作能力; 4.能够严格按照公司的制度规范自己,对工作认真负责,做到工作能够日结,对业务
1.有离线与实时任务开发经验, 可以快速熟悉业务上手开发 2.有数仓建模经验,能够根据实际情况对指定任务进行优化 3.为人稳重负责,善于沟通,对新技术的研究有着充足的热情;具有良好的团队协作能力; 4.能够严格按照公司的制度规范自己,对工作认真负责,做到工作能够日结,对业务