掌握Java基础知识,熟悉面向对象编程,理解IO、多线程、集合等基础框架
掌握Scala基础知识,熟悉面向对像编程,熟悉函数式编程、特质、伴生对象等Scala特有的属性
掌握Mysql基础知识,理解查询、索引、事务等处理,了解Hbase,Mongodb等
了解Linux系统、掌握常用的shell命令使用,能编写脚本
熟悉Hadoop框架,HDFS读写流程,Shuffle优化,Yarn的工作机制和调度器,小文件的处理
掌握Flume组成框架,安装、部署,添加拦截器、选择器,保证数据不丢失和阻塞
了解Kafka消息中间件,理解Kafka生产者、Broker、消费者的工作机制,以及底层调优,保证数据
的一致性
掌握Hive数据仓库工具,能编写Hive执行脚本,处理业务数据,解决数据倾斜问题,Hive On Tez优
化
掌握Zookeeper的安装和部署,半数机制和选举机制,以及常用命令
了解Spark基础知识,熟悉Spark包含的算子,并对数据进行处理
掌握数据仓库建模思想,熟悉范式建模、维度建模等模型思想
熟悉使用Azkaban、idea、maven等开发工具,提高开发效率
离线数仓组合了大数据框架的组件,在一定时间里对采集的行为日志数据进行处理,根据需求把数据汇总到不同层,为决策层提供数据,并进行相关分析。该项目分成了数据采集模块、数据仓库模块、数据可视化模块。
1. 综合应用了Hadoop生态框架,如Flume、Kafka、Zookeeper、Hive等。
2. 用Flume、Kafka、Zookeeper搭建了数据采集通道,使用Hive搭建了数据仓库,并合理的划分了
ODS、DWD、DWS、ADS等四层。
3. 编写主题HiveQL语句,实现用户活跃主题、新增主题、留存主题等,并使用Superset对主题数据进
行可视化。