2年UNIX C服务端程序开发经验;
6年互联网公司大数据相关的研究与开发经验,带领3至4人的开发团队;
在大数据分析平台、大数据存储与计算、NLP对话系统方向有较深的研究;
熟悉Java,了解Shell、Python、Scala等其他语言;
有Spring框架下的WEB后端开发经验;
有使用 Python Sanic 框架的 WEB 后端开发经验;
熟悉Hadoop,Spark等开源分布式计算框架,Hive、Presto等方面的应用;
熟悉Hbase等非关系型数据库;
熟悉flume等分布式日志收集系统,编写过flume的source与sink程序,使用flume完成数据的接收与本地存储;
熟悉kafka;
有比较扎实的算法与数据结构基础;
熟悉UNIX操作系统;
熟悉MySQL、Oracle等关系型数据库;
对新技术有着浓厚的兴趣,较优秀的学习能力;
有着良好的交流能力,擅于沟通,精于合作,有强烈的责任感。
在公司四年,参与设计、开发多个大数据处理与统计相关的工作,主要涉及游戏与应用数据的离线统计与准实时统计,并设计与开发了公司的通用数据统计平台以及统计引擎。
1. 基于机器学习的任务型对话系统
使用基于传统的机器学习算法(例如:CRF、MITIE、SVM、TensorFlow ),完成对用户输入进行意图识别、实体抽取、同义词替换等功能。
通过多轮对话的方式完成类似预订班车、预订餐厅等智能对话。
2. 面向移动应用的数据分析平台
应用接入后,可在web页面上自由定义应用数据格式,自由扩展统计的维度与指标。数据接入后,可利用大数据引擎进行百亿量级的数据实时查询例如活跃用户、新增用户、用户留存、新增设备等指标的统计,统计时间段可精确到小时。
用户可自定义报表,完成每日的回归分析、漏斗分析、渠道分析。
3. 大数据引擎
旨在通过友好的RESTful接口,给公司其他项目提供快速、便捷的大数据存储与计算服务,包括:
3.1 提供PB级的数据存储,各个项目的数据隔离;
3.2 提供RESTful接口进行建库、建表以及上传数据;
3.3 提供RESTful接口进行实时查询、异步任务;
3.4 百亿级数据的实时查询、秒级响应;
3.5 以项目为单位分配计算资源。