非结构化处理平台

电子商务-B2C

非结构化数据分析系统,主要用于将非结构数据通过数据探测,数据分类,阵地快提,数据落地,数据入库,PDF提取,HTTP提取等方式变成结构化的阵地数据输出,并与数仓进行对接,为下游业务贡献数据 项目职责: 1.对接数据入库模块,对入库的HDFS文件进行解析,清洗,数据输出到HIVE表,并统计数据质量情况如字段有值率,总记录数等进行BI展示 2.负责两两属性模块,提取入库数据中的两两属性,如身份证-姓名,身份证-手机号,身份证-车牌号等,为束缚胶囊提供数据 3.负责shell脚本编写,hive脚本编写 4.负责对接数仓...

非结构化处理平台
非结构化处理平台
非结构化处理平台

电商数仓

电子商务-B2C

负责数仓的分层和一些 DWS、ADS 常用指标的分析。比如流失用户数,最近连续三天活跃用户,最近七天内连续三天活跃用户等。流失用户数就是最近七天未登录的用户,将日活表按照 id 分组,然后取出该 id 对应的最大时间,判断是否为最近的七天得到最近七天未登录的用户然后计数。连续三天活跃用户就是以日活表为基础,把最近三天的数据取出,然后按照设备 id 进行分组,因为日活表 id 是唯一的,所以出现三次的 id 就为最近连续三天登录的设备 id。最近七天内连续三天活跃用户:先查出最近七天的活跃设备,然后利用开窗函数 rank over 进行分组排名,然后再计算时间和排名的差值,然后根据 id 和时间...

电商数仓
电商数仓
电商数仓
------ 加载完毕 ------
联系需求方端客服