ETL
1. Datastage,Shell,Python进行ETL开发
2. 数据库开发,包含关系型和非关系型数据库,如DB2,Oracle,Mysql,Netezza,MongoDB
3. 分布式数据库集群搭建和开发
4. Spark和Hive开发
Data Mining
1. Python进行数据挖掘,聚类
2. 自然语言处理
3. TensorFlow深度学习
1. 50TB数据量级别的数据仓库建模,开发和维护,主要业务是市场营销方向。开发ETL框架Python+Shell+AirFlow,每日处理亿级别数据量
2. Shell开发,从不同数据源抽数据进行ETL,包含批处理和流处理两种方式。开发了从主数仓往数据集市同步数据的框架,实现短时间内完成增量同步
3. AI人工智能,用Python和NLP相关算法,为5173客服和上海交通大学密西根学院开发了聊天机器人
4. 分布式数据仓库搭建,主要是DB2 MPP架构,实现稳定的批处理数据仓库
5. Spark sql处理大数据ETL,数据存入HDFS,用Hive展现
6. AIOps,智能运维,对硬件设备的海量告警进行告警溯源分析,对线上系统发出的根告警,用深度学习框架为运维人员快速提供根因定位,提高判断效率和准确性