1)对Hadoop生态圈有深入的理解,熟悉生态圈的多种组件;
2)精通常见数据库SQL的编写与调优,熟悉Hive SQL代码开发编写;
3)掌握HBase的架构及其内部组件的工作原理,能够根据业务的不同设计相应的表;
4)掌握Kafka架构,Topic数据的存储和消费者原理,熟练使用kafka-eagle监控组件;
5)熟悉Spark的程序开发(scala/Java),数据的转换;
6)熟悉flink-cdc数据的全增量数据同步,了解Flink的工作原理和内部机制;
7)熟悉airflow、Azkaban等调度工具的任务调度;
8)熟悉数据仓库的设计与搭建,有建设离线数据仓库的经验;
9)熟悉各种功能的帆软报表和看板开发,有丰富的报表开发经验,通过了FCP-报表开发工程师认证;
一、hive离线数据仓库开发
1.hive离线数仓的调研与设计文档编写;
2. 根据 MySQL业务库表结构,编写 Hive数据库(ods层)外部表建表脚本以及 HDFS 路径脚本;
3. 使用 Sqoop进行 MySQL 业务数据库的数据抽取;
4. 根据业务逻辑编写、转换 dwd层hql脚本,进行数据过滤/整理;
5. 编写 dws层hql脚本,使业务表与业务表、业务数据与维度表(dim层)进行关联;
6. 编写 ads层报表建表语句及数据插入脚本;
7. 编写 Azkaban调度脚本,进行数仓任务定时调度;
8. Sqoop增量抽取ads层报表数据到 MySQL;
9. FineReport报表制作与展示;
二、GreenPlum离线数据仓库开发
1.ETL选型与数据仓库的设计;
2.数据仓库中各个业务模块的ETL数据过滤、抽取;
3.GP数据库数据仓库的分层;
4.GP数据库分层后的存储过程编写;
5.PC端多个平台的帆软报表的开发;
6.DataX调度任务脚本的编写与设置;