新零售数据仓库
大数据后端开发师、数据分析师
内容:
项目是基于大型连锁新零售业务的数据研发的大数据分析平台,
dolphinscheduler 负责调度工作流、Spark 计算相关指标、Sqoop 将数据导入导出,数仓分析的主要主题有销售主题、商品主题、用户主题,以此来把握新零售业务的运营状况,为决策提供数据依据。
项目架构:此平台上,构建有 HDFS,YARN,zookeeper,sqoop,Spark,Hive,FineBI 等相关的
大数据组件,同时为了提升分析的效率.引入 Spark 来进行分析处理操作,
使用 FineBI 实现图表展示操作,整个分析工作是一个周而复始,不断的执行,
采用 dolphinscheduler 完成任务的调度工作。
我的项目职责:
1、用工具导入数据到数仓集群中,用定时调度流完成数据导出操作;
2、设计数据仓库分层结构:完成数据仓库各层的表建模和分析计算工作,用拉链表解决历史快照的问题,确保分析时的数据都是有效数据;
3、处理数据倾斜、内存溢出、优化配置等场景;
4、使用执行计划 explain 查看 SQL 任务执行是否要优化,使用分区、分桶、ORC 索引、MapJoin 等提高查询效率;
5、编写 Shell 脚本,调整工作流执行的顺序,确保整个工作流程科学有效。