2.掌握 Hadoop 的分布式⽂件系统及其组件 Hdfs、Mapreduce、Yarn 的使⽤。
3.掌握 Hdfs 分布式⽂件存储原理及优化。
4.能够根据业务需求,完成 Map/Reduce 编程。
5.熟悉 Mysql 等关系型数据库,熟练使⽤ SQL 语⾔。
6.熟悉 Hive 的⼯作原理,存储架构,熟练掌握 Hive 的调优。
7.熟悉 Linux 常⻅命令。
8.熟悉DACP数据坊的使⽤以及调度配置
9.熟悉报表⼯具帆软、传输⼯具ftp DataX使⽤
机构板块重构
项⽬介绍:数据中台需要将⽤⼾板块数据字段进⾏⼤规模变迁,根据需要重新编写程序,赋予新的字段以及清
洗转换
职责描述:
1、数据导⼊导出:
(1)通过 DataX将机构数据导⼊到 hive 集群中;
(2)将计算完的业务指标通过sftp上传到基础模块;
(3)利⽤ DACP数据坊完成调度任务。
2、离线数仓:
(1)根据业务设计数仓分层结构,主要分为 STAGE、ODS、DWD、ST、SPLIT层;
(2)落地负责主题的各层建模与分析计算⼯作;
(3)对数据进⾏ ETL 操作,通过拉链表解决历史快照的问题;
(4)对数据进⾏维度操作;
(5)形成主题宽表⽅便 ST 层数据分析与数据展⽰。
3、处理各种异常场景,包括优化配置、数据倾斜、内存溢出等;
4、通过执⾏计划、分区、分桶、MapJoin 等提⾼查询性能;
5、通过分桶采样提⾼开发和⾃测的效率;
6、熟悉常⻅的 SQL 优化。
1、数据导⼊导出: (1)通过 DataX将机构数据导⼊到 hive 集群中; (2)将计算完的业务指标通过sftp上传到基础模块; (3)利⽤ DACP数据坊完成调度任务。 2、离线数仓: (1)根据业务设计数仓分层结构,主要分为 STAGE、ODS、DWD、ST、S
1.与相关⼈员沟通,了解各个表之间的关联以及数据的含义 2.建⽴新的程序,规划⼀套整合逻辑,编写出每个表需要的insert语句 3.对程序进⾏测试,之后完成上线