6年 BI 开发经验,参与了多个大型项目开发 擅长 Hadoop/Spark/Hive/ETL/可视化/JAVA/python
深入理解数据仓库架构和模型,有建模和优化能力
理解 Hadoop 的分布式文件系统和高可用原理,掌握 Mapreduce 原理,实现 MR 编码及优化
熟悉 Hive 的工作原理,完成对数据主题抽取和多维分析,有一定的 Udf 能力
熟练使用 Scala 编程
理解 Spark 工作机制和任务提交执行流程,掌握 Spark RDD,dataFrame,dataset,Spark-sql,SparkStreaming 使用,熟悉 Spark 缓存机制和广播机制,分布式 rpc 有一定认识
熟悉 Hive,Flume,Kafka 与 Spark/Hadoop 整合,构建数据的实时和离线处理架构
熟练使用 Sqoop 工具,实现异构存储迁移 熟练使用 Clickhouse 数据库
酷狗数据仓库持续建设
通过 APP 产生的数据,帮助决策层了解用户行为和需求,从而让酷狗客户端稳定可持续运营。该项目为
决策层提供多维分析,主要涉及 KPI,付费流水,收藏流水,搜索流水,注册流水,VIP 流水,弹幕/评论流
水,繁星直播,等指标体系。 责任描述: 1.负责繁星/粉丝、付费/VIP、手机 KPI 等业务 ETL 开发,对用户留存,用户 DAU 等指标多维分析
2.数据仓库架构优化
3.Hive 优化
4.Hive 转 spark SQL,性能提升5-10倍,存储减少5倍以上
5.调度策略优化,Akka 构建分布式调度平台
角色 | 职位 |
负责人 | 大数据工程师 |
队员 | 产品经理 |
队员 | UI设计师 |