一、运行环境要求
操作系统要求:linux
语言要求:java或lua或python
二、技术要求
1、识别规则及算法需要有两条路径:
(1)通过常规的规则进行识别,规则可以进行自定义,形成规则库,譬如身份证号码具有规则识别特征的,可以标定为敏感数据,或者已经为数据项添加了标签(标签可以人工添加,可以对此标签进行是否敏感数据及敏感性级别设置),如标签代表了为敏感信息,即可识别为敏感数据;
(2)通过机器学习方法进行敏感数据识别,提供基于相似度、非监督学习和监督学习的三类智能算法,提供训练数据库(支持训练数据库的数据增加导入),提供人工标记接口,提供训练任务调度接口,提供算法及参数修改能力。
2、敏感数据识别首先进行常规规则识别匹配,无法识别的再进行机器学习智能识别,除各自提供相应的接口外,还需提供统一的接口;
3、识别的结果除提供是否是敏感数据外,还需提供敏感数据的类型、敏感级别、判别依据等数据;
4、对于识别的结果,敏感的可以手工更改为非敏感,或者非敏感的可以手工更改为敏感数据,更改后可以反馈给识别系统,作为下一次敏感数据识别规则或机器学习的训练学习输入内容。