1 大数据
对apache hadoop 和cdh hadoop 较为了解,善于设计大数据库平台架构,能编写自动部署脚本;
可以快速搭建起大数据平台,并且会维护
对hive hbase spark kafka等技术熟悉,阅读过spark的源码
善于用pyspark scala 进行数据挖掘,熟悉spark core sparksql sparkgraphx spark mllib
善于解决hadoop生态圈林林种种的坑。
2 python 熟悉python边边角角
数据分析:numpy scipy pandas 等
python web:掌握django flask
运维:掌握linux和fabric
机器学习:熟悉sklearn库,熟悉分类/聚类/推荐 神经网络等
图像处理:PIL
3 数据仓库
主要对四大关系型数据库:postgresql mysql sqlserver oracle 熟悉,善于数据库编程
数据仓库建模,善于使用ETL工具---kettle为主,善于设计数据仓库。
。
1 深圳市企业统一代码大数据仓库库搭建
以深圳市工商企业登记数据为核心,整合税务/社保公积金/法务/招商等部门的数据,搭建统一代码库;
1)该数据仓库难点在,涉及部门多,每个部门数据交互方案不同;
2)业务复杂,ETL程序编写繁重而复杂
3)放弃传统数据库,基于hadoop平台搭建
选择云服务器,选择了redhat 7,3 作为集群的操作系统;选择了cdh,作为hadoop平台,数据存储在hive和hbase中;
用kettle编写ETL程序。
该项目历时1年半,我从零参与,主导所有流程。
2 深圳市筑龙科技,深圳市数据中心搭建
该项目搭建中:也是以cdh作为数据平台,业务为招投标数据;
不一样的地方在关系数据特别多,涉及许多图算法
1)搭建neo4j图数据库
2) 批量图运算,借助sparkx