全面客观地测评现有数据清洗方法的性能,越来越多的错误自动注入系统应运而生,其中一种便是不一致错误注入系统。不一致错误注入是指根据用户指定的完整性约束规则,目标列,错误模式和缺失比例,向目标列中注入拼写错误或替换错误,使得注错后的数据集违反给定的规则集。现有的不一致错误注入系统通常只支持单一模式的错误机制,即完全随机错误,然而很多真实应用场景中的错误是非随机的。例如,哈尔滨理工大学的简称通常被误写为哈工大,而不是任意大学的简称,如中科大。为了更好地模拟真实数据集中的错误情况,
数据管理;
数据可视化;
不一致错误注入;
错误情况可视化;
随机缺失值注入;
非随机缺失值注入;
数据缺失情况可视化;
用户管理;