离线电商数仓项目
项目介绍:
采集电商网站的用户行为日志和业务数据进行数仓建模和统计分析。该项目采集网站产生的日志数(页面日志、事件日志、曝光日志、启动日志)和业务数据进行维度建模、数仓分层建设,分为多个主题如:用户主题、品牌主题、地区主题等,来实现对于网站的更深层次的优化。
主要技术:Hadoop + Hive + Flume + Sqoop + Azkaban + MySQL+ Superset
任务描述:
1.使用日志采集框架 Flume 和 Sqoop 分别采集日志数据和同步业务数据到 HDFS;
2.使用 Hive 搭建数据仓库、完成数仓维度建模、数仓分层、分主题建设;
3.分析多类主题的指标,用户主题:新增用户数、新增下单用户数、下单用户数、流失用户数,地区主题:订单总数、订单总金额、下单总人数,商品主题:品牌复购率,活动主题:补贴率;
4.使用 Azkaban 进行工作流调度,编写工作流程配置文件,让 Azkaban 每天定时执行数仓更新任务;
5.使用 BI 分析工具 Superset 生成可视化图表展示数据统计结果。
项目难点:
1.自定义flume拦截器过滤异常数据和解决零点漂移问题;
2.使用拉链表构建用户维度表,解决全量更新效率低下的问题;
3.Hive自定义 UDTF 函数处理用户行为日志数据(json数组格式)。