数仓是通过分析客户信息,账户信息,企业关系,事 件信息,汇总数据,清算数据,渠道信息为银行及金融机构的业务营销,业 务推广,费率调整,优惠策略,为公司运营,销售,手续费,风险控制,为 企业商品营销,资金调整提供数据报表、风险评估、决策方向的业务系统。 app 前端埋点数据通过 Flume 采集、其他子系统业务数据库中的数据通过 logstash 采集,银行前置机数据通过 canal 采集后,发送到 kafka 的不同 Topic之中,使用Flume落地到HDFS,通过HIVE映射外部表,配合spark sql 将数据清洗分层。该系统数据仓库分为四层。ods 层为原始数据,dwd 层为清洗之后的数据,dws 层将数据轻度聚合,ads 层是分析完成的数据, 抽取到关系型数据库提供给页面展示。系统中数据基于维度建模,主要使用 星型模型,主要包括用户,商户,银行,清算机构,收单机构,签约机构等 实体表,区域,时间,交易类型,交易状态,支付方式,审计流程等维度 表,代发,代扣,冲正,撤销明细等事务型事实表,还有订单,退款,交 易,审计等周期性事务表。此项目中我参与过用户时间维度,渠道维度,区 域维度等交易量,交易额,区域热门渠道交易排行,区域漏斗分析,退货, 异常交易占比等指标。