掌握的技术包括如下四大类:
1.Hadoop、Hbase、Storm、Phoenix、Kafka、Spark、Flink 等大数据相关技术;
2.Spring、Springmvc、SpringBoot、Mybatis 等应用开发相关的技术框架;
3.Docker、kubernetes、ambari(HDP)、CDH等大数据平台搭建相关的技术;
4.Kmean、Knn、SVM 支持向量机、决策树、神经网络等机器学习相关的算法。
《数据湖治理》
将 HBase、Hive、HDFS 等组件的有效元数据实时同步到该平台中并进行集中式管理。主要功能包括:数据的血缘关系、数据的预览、数据检索、数据目录等,并且整合 ranger 到这个平台下面,进行对元数据的安全管理。此外开发出针对这个项目的批量创建数据目录和打标签工具。
《数据监听》
监控业务数据库所有数据的变化,将变化的数据推送给消息总线,避免轮询数据库造成的数据库压力。主要功能包括:抓取并解析 binlog,用户订阅,消息推送,负载均衡(topic 分区,机器均衡启动数据源),高可用(某台机器节点宕机,其他节点会启动这个节点上面的数据源等任务)
《大数据平台搭建与开发》
使用到的主要技术是 ambari。 主要做了 ambari 的搭建与开发,自定义 ambari 服务:将其他服务整合到 ambari 里面,通过ambari 进行集中式的监控和管理。