1. 精通Java、Scala开发语言,有阅读英文文献的能力
2. 精通Hadoop分布式文件系统HDFS,MapReduce原理和编码实现,Yarn的资源管理和任务调度
3. 熟练使用Linux基本操作命令
4. 熟练使用kafka、hive
5. 熟练掌握 HBase列存储数据库基本的使用,熟悉其存储数据的原理与架构
6. 熟练掌握kettle以及Azkaban调度框架
7. 熟练掌握Spark工作机制,熟练应用SparkCore、SparkSQL、SparkStreaming
8. 熟练掌握flink工作机制和批处理以及流处理执行流程
9. 了解Zookeeper的应用及原理
10. 了解SparkMLlib
11. 了解kylin、phoenix大数据框架
实时数仓分为两条线,一条是对用户的浏览日志进行分析,另一条是对业务数据进行处理
一、页面埋点采集数据,利用单层flume架构进行实时采集,将用户的日志写入到kafka集群,使用flink实时消费kafka的数据并且将统计指标写入redis中,前端可直接查询redis来给可视化大屏展示数据
二、使用canal实时解析mysql binlog中的银行产品订单数据商品数据并写入kafka集群,Flink实时对读取到的数据与redis里面的维度表进行关联拉宽操作,对于拉宽后的数据我们会存一份在HBase,使用Phoenix构建二级索引,还会把一份写入kafka新的topic里,Druid接入kafka,将数据摄入druid,然后通过sql查询druid保存的数据
责任描述:
负责flink代码的开发,读取kafka数据进行指标分析,分析的指标主要有:各银行的pv、uv,各地区销售排行,使用druid进行日、周、月订单分析,各地区销售排行,以及使用flinkCEP来实时监控机架的温度