项目描述:随着公司业务的发展,对数据的及时性要求越来越高,传统的离线数仓满足不了实时的业务需求,于是需要在实时方面做技术突破。期初我有研究过Canal+Kafka+Spark+Impala做准实时架构,这个方案有使用过一段时间,但是在Spark消费Kafka数据有一定延时,Impala加工结果数据也有一定延时,这就导致数据是准实时的,这个只能满足对数据实时性要求不高的场景,因此需要做新的突破。
现流行的Flink分布式流数据流引擎,非常适合公司的业务需求,所以自己研究实时数仓架构,设计出Flink+Doris+Dinky实时架构,并搭建用于生产,用Doris建立实时数仓,数据时效性在1s左右,满足了业务需求。但在某些特定情况下, Flink CDC需要重新同步数据,由于集群资源限制,导致同步完成需要几小时。后面设计Datax全量,Flink增量,使得同步完成缩短到1小时内。
工作职责:实时数仓架构设计、搭建、开发