掌握Hadoop、Spark、Azkaban、HBase等分布式框架的原理,熟悉HDFS、Azkaban源代码,熟练编写Hadoop、Spark代码。
熟悉Java编程语言,熟练掌握Linux常用命令,熟悉shell/bash编程,了解python语言,了解HTML、JavaScript前端开发语言。
(1)采用 pySpark 和 HadoopStreaming 解析用户日志,构建基于用户验证控件的 数据仓库;(2)利用 Java 编写 Hive UDAF 函数,解析用户手机系统的最大版本号;(3)利用 python 每天定时调度 Airflow 解析日志,生成 Hive 数据表;(4)编写 shell 脚本定时监控数 据表是否按时生成,如果未生成,则发送报警短信;(5)采用 Hql 统计用户各验证控件的展示量、使用量、成功量、验证成功量同环比等。