5年软件开发经验
3年大数据和分布式领域开发经验
编程语言
熟悉: • C • C++ • Java • Shell
了解: • Go • Scala • Python
软件
熟悉: • Linux • Hadoop
数据处理任务调度模块: 为了协调各数据处理任务(MapReduce/Spark)的执行顺序,我调研了Oozie,借鉴其DAG 的思路,开发
了这个任务调度模块,集成到已有的数据处理和报表系统中。该模块使任务能够按依赖关系执行,不需要再通过定时指定顺序。
用户打分模型Workflow:根据用户每天使用app 和广告曝光点击等行为数据,按规则对其打分评价优劣,月末汇总整月行为再算
总分。一个月的原始数据量约30T,Workflow 每天在30 分钟内完成所有计算、入库和报表输出。
用户昼夜常驻位置挖掘:为支持业务方做用户的生活/工作场所画像,需要挖掘用户一年内每天的昼夜常驻位置,原始数据量约
600T。抽样发现用户的位置轨迹中存在异常点需要排除,因此我设计了一种稳定停留点的计算方法来进行过滤。