熟悉Python/C++开发,对数据结构和算法设计有较为深刻的理解;
熟悉常用大规模数据挖掘/开发技术,对常用的机器学习算法具有一定的理解;
熟悉常用的大数据框架,MR计算,如Hadoop;
熟悉Linux/Windows操作系统;
有良好的逻辑思维能力,能够从海量数据中发掘有价值的规律;
有良好的团队合作精神,较强的逻辑沟通能力;
a. 强规则的ID-Mapping打通建设:依据用户行为日志中若干ID的共现来作为打通源 ,对于收集到的不同种类的ID对,进行反作弊数据清洗(阈值反作弊、时序反作弊、频度反作弊、属性反作弊以及地理位置反作弊),最终以连通图的方式来聚合打通形成设备。
b. ID-Mapping报表设计。(自动化监控关键指标, 采用Python语言爬取MR任务历史页面, 解析出关键的counter保存到XDB数据库中,并最终在SHOWX进行展示)