大数据:数据建模,数据管理, 数据安全管理, ETL, ML, Hadoop, Spark, Hive, Impala, HBase, Sqoop,ELK
机器学习:Pattern Discovery, Supervised/ Unsupervised ML, Nature Language Process, 机器学习生命周期管理
企业级架构:基础设施和平台设计,系统设计和整合,数据建模,技术评估
DevOps: Agile, CI, CD, Jenkins, Git, Maven/Ant, Docker
编程语言:Java, R, Python, JavaScript, PLSQL 等
数据库:Oracle, MySQL, MongoDB
Java 框架: Spring, Spring MVC, Struts, JSF
前端开发:JQuery, Map, Bootstrap, AngularJS
操作系统:CentOS/Redhat, Ubuntu, MacOS, Docker, Nginx/Squip, OpenLdap, Kerberos
商业软件: Tibco BusinessWork, Tibco CEP, Tibco Spotfire
云平台: AWS, Microsoft Azure
## 技术选型及评估:
- 数据分析/机器学习项目,实现 R 语言到 Python 语言的技术转型,制定系统化的方法和流程,提高团队的协作效率。
- 实现 Java + Oracle 到 Python + MongoDB 的技术转型,定义开发规范和流程,负责核心框架构建。
- 引入和推广容器化 Docker 应用部署方案。
- 引入 Spark + Python + Docker, 实现大规模事件流的快速回测。
- IoT 项目云平台评估,主要负责 Microsoft 和 Amazon 云平台的相关产品的评估。
## 大数据平台 2015.06-至今
公司从 2015 年初开始探索大数据相关理念和技术,到 2015 年底开始正式建设大数据平台。前期,主要负责大数据相关技术栈和产品的评
估、大数据平台架构设计、数据安全管理与规划工作。同时与运维部门合作,完成数据平台生产环境的部署、安装。
其后,带领团队完成数据湖泊的建设,通过定制化的数据导入(获取和存储)解决方案,实现了不同数据格式、数据源数据的实时(NRT)
流入大数据平台。评估和部署基于 Web IDE 交互式数据分析和数据可视化工作平台的解决方案,优化大数据分析和开发的工作效率。于此
同时,负责大数据技术培训工作,致力于企业内部大数据技术的普及和推广,涵盖 Hadoop 技术栈、Hadoop 开发技术、数据分析、基于
大数据平台的数据分析和开发工作流程,促使更多的传统开发人员转型到大数据开发和分析的工作领域。
目前,带领核心团队负责通用模块以及插件的开发,处理不同开发团队遇到的技术瓶颈和难点问题,例如外部应用程序访问开启安全的
Hadoop 平台,Hadoop 存储方案优化。于此同时,参与数个基于 Spark 的机器学习项目。
## 机器学习 2014.06-至今
前期负责和外聘科学家、顾问对接,完成项目需求分析、项目设计、开发、文档以及验收的工作。此后独立进行机器学习算法的相关研究,探
索数据分析和机器学习的流程,构件基于 R 语言的分布式机器学习框架。与业务部门合作,完成多个实际项目的开发。同时培养新人参与数
据分析和机器学习的相关工作。以下为部分项目和主要算法:
1)最优海运航线建模,主要应用算法: Hausdorff Distance, Dynamic Time Warping, DBA, Hierarchical Cluster 以及空间几何算法
2)船舶停靠位置绘制,主要应用算法:Hierarchical Cluster, DBSCAN
3)船舶抵达港口时间预测,主要应用算法:Decision Tree, Regression, Random Forest
## 复杂事件处理系统 2014.06-2016.01
该系统在预先构建的规则模型和事件模型的基础上实时处理船舶 GPS 数据流,航班信息等数据流。从而实现对全球集装箱船舶进行监控,包
括船舶抵离港事件监控,船舶抵港时间预测,船舶异常监控,如速度异常,航道偏离,航班延误,极端天气预警等。
在此过程中,主要负责系统设计、状态机设计、数据建模和复杂事件处理引擎的实际开发工作。在 2015 尾,实现从商业软件 Tibco CEP、
EMS、Oracle 到开源软件 Python、MongoDB 和 Docker 的技术转型,其后引入 Apache Spark 进行大批量数据回归测试。
数据可视化开发 2013.09-2015.06
带领团队进行数据清洗、数据集成以及数据可视化开发。实现表格,图形,地图等可视化元素,提供多样的数据展现形式、图形渲染形式和人
机交互方式。
## 产品发布 2012.06 – 2013.06
产品发布的相关工作,包括产品发布流程管理,持续部署工具的集成与开发,完成代码管理工具从 SVN 到 GIT 的迁移。
电子文档自动化处理系统 2011.06 – 2013.09
负责分布式电子文档处理系统的开发,实习生团队管理(10+人),同时与业务团队和业务分析团队紧密沟通合作。
## 其他经验:
- 2014 至 2016 年,派驻香港总公司培训工作一年
- 2015 年 12 月,参加新加坡 Strata Strata+Hadoop World 2016 大会
- 2016 年初,参加 Cloudera 大数据培训课程