具有主流大数据工具/平台实际项目经验,Hadoop、Spark熟悉所使用工具的技术原理、主要特点;
熟悉Data Pipeline概念,熟练使用Kafka、消息队列,了解工作流概念;
熟悉数据仓库数据挖掘技术,分布式计算技术理论,具有大数据整体系统架构设计经验;
精通java,scala语言,熟悉linux操作系统;
精通Hive sql,有丰富的Hive sql性能调优经验;掌握Python脚本语言
大数据挖掘平台:
负责数据源读取,数据抽取,数据清洗脱敏处理;
负责spark机器学习相关分类,回归,聚类算法开发;
负责pmml模型导入导出利用,spark机器学习模型导入导出利用开发;