熟悉hadoop,深入理解hadoop工作原理,能够编写mr加工各种离线数据
熟悉HBase及搭建上层应用phoenix,大数据存储,高并发查询,rowkey一级索引,结合ES二级索引
熟悉Hive,基于Hive做离线数仓,自定义UDF,UDAF函数,以及Hive的优化
熟悉sqoop和datax,做离线ETL
熟悉azkaban、hera、 dolphinScheduler等常用的调度工具
熟悉kafka,理解kafka原理,能够使用kafka做实时ETL
熟悉flink、flinkcdc及开源chunjun做异构数据源数据同步(离线和实时)
熟练使用java、python、go、shell、hql等语言及ES、flume等技术
通过大数据平台快速整合数据,数据同步、数据质控、数据加工,完成海量数据的计算与分析,并同步到es对数据检索
cdh集群:集群规划(计算节点、存储节点、查询节点、管理节点资源规划)、集群部署、cdh集群调优、完成部署文档,并对运维人员做相关技术培训
调度工具:dolphinscheduler调度工具二次开发(适配腾讯大数据平台TBDS)、debug、规划、部署
ETL:datax+hive,设计数据抽取(T+1)方案,针对不同业务特点(基于时间戳、基于主键、无时间戳无主键),通过拉链表的形式完成数据新增、更新,增加业务可信时间戳字段。
数据处理:优化低性能HQL、hive调优、UDF(数据加解密udf、数据标准化udf、新concat、row2json、array2json)、通过外表的形式打通hive和es
监控:Grafana+prometheus监控mysql、cm主机等相关性能指标
datax源码优化:1)新增插件(s3reader、s3writer、miniowriter、gpwriter)2)改造基于字符串切分数据(源码有很大问题)3)datax适配TBDS环境,完成hdfswriter、hdfsreader认证
负载均衡:基于haproxy完成hiveserver2、impalashell、impaljdbc的负载均衡