线系统(数据中台)
开发环境:
HDFS + Hive + Spark + Impala + Sqoop + Azkaban + MySQL
项目描述:
搭建数仓架构,实现原始数据隔离,建设离线宽表,简化开发指标,减少重复开发,提升数据使用效
率,实现可视化展示。离线数仓虽然为日批次计算,但是能够为管理人员提供数据支撑。
责任描述:
1. 调研数仓架构,参与数仓的建模与搭建;
2. 负责框架的优化,脚本的维护;
3. 参与指标分析:日活、周活、月活、每日新增、一日留存率、沉默用户数、本周回流用户
数、流失用户数;SKU 数、SPU 数、商品销量排名、商品收藏排名、商品加购排名;好评
率、差评率、评价率、物流好评率、物流差评率;GMV、日下单量、品牌复购率、品牌活动
周期;首页详情转化率、详情加购转化率、加购下单转化率、下单支付转化率、详情支付转
化率等。
技术描述:
1. ODS 层: 采用 LZO 压缩 + 创建分区;
2. DWD 层:Sql 数据清洗 + 脱敏 + 星型模型维度建模 + 维度退化 + LZO 压缩 + Parquet;
3. DWS 层:确定宽表字段,构建当天行为宽表,服务于 ADS 层;
4. ADS 层:直接对接业务指标需求;
5. 利用 Sqoop 将 ads 层数据导入 MySQL 进行可视化展示;
6. 利用 Azkaban 调度各层脚本进行离线数仓脚本定时执行;
7. 利用 Impala 即系查询工具,查询 hive 表中的数据。