1、袋鼠云数栈打造了完整的全流程数据质量闭环管理机制,同时支持数据迁移和逻辑变更的双表逐行校验场景。
2、大量ETL任务,任务运行正常,由于数据源变动,或开发代码修改,测试不充分,导致数据经常出现问题。使用数栈,可对关键任务配置数据质量校验规则,任务跑完产出数据,并经过质量校验通过后,才流入到下游,给到数据需求方。
3、开发人员维护ETL任务,由于业务规则的变更或新需求的迭代,需经常修改ETL任务逻辑。每次修改后比对数据,耗费大量的时间。使用数栈,通过数据质量产品的双标校验功能,自动对比修改前后的数据,输出比对结果,无需人工干预。
4、跨平台的任务迁移,同时保证迁移前后数据的一致性,以往需要人工或写程序校验,费时费力。使用数栈,通过数据质量产品的双标校验功能,自动对比迁移前后的两个平台的数据,输出比对结果。
5、脏数据配置,在数据同步执行的过程中可能会出现因主键冲突、格式转换错误等各种原因造成部分数据无法正常写入,不能被正常写入的数据即被视为“脏数据”。
脏数据配置在数据同步配置模块中,在数据同步任务的通道控制步骤中,可配置是否需要记录脏数据,并可制定存储脏数据的表名、生命周期。
6、数据质量配置
数据质量模块可以根据不同的业务场景,针对数据表提供表行数、空值数、空值率、重复数、重复率等二十余种统计函数,校验方法支持固定值监测、1天波动监测、7天波动值变化监测、30天波动值监测、7天平均波动监测、30天平均波动监测、告警阈值等,支持灵活自定义。