kettle
hadoop
hive sql
python基础
linux常用命令操作
关系型数据库如mysql, postgresql, openGaussDB等
了解基本数据开发流程, 有大数据项目经验
1. 使用kettle进行人员主题, 房屋主题, 场所主题, 人员轨迹主题, 标准地址主题, 就业主题
等全量数据从汇聚层业务数据库到高斯数据库的迁移;
2. 编写`SQL`对汇聚层全量数据进行处理, 从业务数据宽表示相关主题数据的转换, 使用
高斯内置函数对数据进行初步清洗, 如特殊字符, 符号字母, 乱码数据的处理, 将处理后的
数据存储在业务层;
3. 通过`Kettle`工具配置ktr文件, 调用部级接口, 对无法确定及未核实境内人员数据进行人
员相关信息的获取, 对获取数据进行提取, 维护到业务层人员主题表中;
4. 对于业务层增量数据, 通过`Kettle`工具配置相应的`ktr`文件及`kjb`文件, 根据时间线索
过滤出增量数据, 通过查询接口新增接口维护接口将正确的数据维护到业务层相关主题表
中;在`kjb`文件运行过程中进行日志收集, 对于日志数据进行分析判断, 并根据日志数据进
行日常的维护工作, 如通过日志数据查找接口调用失败数据进行重调维护;
5. 针对人员主题, 对姓名 证件号码 联系电话 等数据进行脱敏, 并将脱敏数据输出到共享层;