1、spark程序编写,大数据数据过滤、统计、存储等
2、熟悉hbase、hdfs、kafka等常用组件
3、大数据集群维护(kerberos+openldap实现集群用户统一管理等)
5、java后端接口开发等(熟悉springboot等常用后端框架)
1、流处理程序:使用spark streaming从kafka取数据,使用spark sql定时从mysql表加载规则,实现对数据的统计和过滤,最终发送到kafka
2、hbase value序列化存储的优化(减少存储的数据以及序列化/反序列化性能上的优化)
3、hbase协处理器代码的编写
4、cloudera集群维护(kerberos+openldap+sssd实现用户统一管理、cloudera集群升级)