1,大数据Hadoop生态(HDFS,MapReduce,YARN,spark,flink,kafka,flume,sqoop,HBase,zookeeper,clickhouse,Doris)完整的解决方案,及落地案例
2,大数据体系建设,架构设计,行业数仓梳理及落地(离线数据仓库+实时数据仓库的解决方案)
3,基于原生Hadoop组件,我们开发了一套独立的系统,其中包括 调度系统,血缘管理系统,即席查询系统,指标管理平台,零编码流平台,埋点管理系统,后台管理系统等等,能够根据自身的需求,动态扩展功能
4,我们致力于研究与发展湖仓一体,流批一体的解决方案,目前致力研究数据湖(Hudi,Iceberg)
跨境电商数仓项目
软件架构:
离线:MySql -> Spark-SQL(平台封装工具)-> Hive -> Spark-sql(WaterDrop) -> clickhouse
实时:MySql(binlog) -> canal -> Kafka -> Flink -> (kafka,HDFS) -> clickhouse
数据流向:
使用平台封装的 Spark-SQL 对mysql数据抽取写入Hive表中,对数据进行 脱敏,降噪,去异常,数据建模,数据聚合等操作,通过封装的WaterDrop 把数据导入到Clickhouse。部分明细数据推送click house提供即席查询
项目描述:
公司需要规划统一的数据管理/分析 平台,以及核心指标的实时监控。实时部分通过canal集群以及Flume日志采集工具采集实时生产的数据,对数据进行处理,落到ClickHouse,进行核心指标的分析和提取。
离线部分整合各个站点(可以理解为国家)的数据,进行统一建模,形成一致性维度。对数据进行拉宽,从DWS层推到ClickHouse,进行数据多维分析。
角色 | 职位 |
负责人 | 大数据架构师 |
队员 | 产品经理 |
队员 | UI设计师 |
队员 | 前端工程师 |
队员 | 后端工程师 |
跨境电商数仓项目 软件架构: 离线:MySql -> Spark-SQL(平台封装工具)-> Hive -> Spark-sql(WaterDrop) -> clickhouse 实时:MySql(binlog) -> canal -
数据流向: 使用Clickhouse的kafka引擎拉取Kafka数据到clickhouse本地集群,通过物化试图对数据进行消费,写入到分布式表中。summingMergeTree引擎基于ReplicatdMergeTree进行预聚合,并设置数据的 TTL 生命周期。通过Wat