文档和自动化部署工具:Svn/Git,报表组件:FIneBI/QuickBI,大数据云产品:MaxCompute/EMR/MRS/DLF/Databricks/DLI/DLC,后端框架:Spring/Springmvc/Springboot/MyBatis/MQ/Springcloud/Dubbo/Zookeeper,数据分析:Hive/Spark/Flink数据库相关:Oracle/MySQL/Mongo/PgSQL/Hbase/Phoenix/Redis/Elasticsearch版本管理,消息队列:Kafka/RabbitMQ,数据采集:Flume/Sqoop/Python,ETL框架:Kettle/DataX/Canal/Maxwell/Otter
项目描述:随着业务的快速迭代,青龙数仓的库表越来越繁多,初期搭建时确定的数据标准、模型设计规范略显粗糙,且缺少一套完整数据的生命周期管理体系,使得数仓内沉积了大量没有下游引用的数据表,另外因为开发不规范导致分层混乱,层级反向依赖,ODS 层穿透现象增多。需求紧张也产生了大量烟囱数据表和重复开发指标等。为释放集群资源,减少数据质量问题,急需对数仓进行规范化治理,更好地发挥数据价值。
1. 下线各层无用/临时数据表总计2300+,释放存储资源3500T
2. 完成20+个应用层烟囱数据模型整合,10+个公共层模型改造
3. 数仓 ODS 穿透率由原来16%下降至3%
数仓算力资源使用降低了17%,数仓月度 DQC 告警降低了26%
4. 内部培训数仓的开发管理规范,文档的落地,以及后续稽核,奖惩措施的闭环