非结构化数据分析系统,主要用于将非结构数据通过数据探测,数据分类,阵地快提,数据落地,数据入库,PDF提取,HTTP提取等方式变成结构化的阵地数据输出,并与数仓进行对接,为下游业务贡献数据
项目职责:
1.对接数据入库模块,对入库的HDFS文件进行解析,清洗,数据输出到HIVE表,并统计数据质量情况如字段有值率,总记录数等进行BI展示
2.负责两两属性模块,提取入库数据中的两两属性,如身份证-姓名,身份证-手机号,身份证-车牌号等,为束缚胶囊提供数据
3.负责shell脚本编写,hive脚本编写
4.负责对接数仓