熟悉 Linux 系统,能熟练使用 Linux 常用命令。
熟悉 java ,有良好的编码能力。
熟练 SQL 开发,并能对 SQL 做一定程度的优化。
熟悉 Flink 流式计算框架,了解底层原理。
熟练使用 Python,能灵活运用 Numpy,Pandas 处理复杂数据。
熟练使用 Hadoop 、Hive、Hbase。
了解 Flume 、Kafka 等 E T L 组 件 。
项目1:实时计算大数据系统
涉及组件:Filebeat、ELK、Kafka、Hadoop、Hbase、Phoenix、Flink
项目背景: XX语音是一款语音互动交友APP,主打语音直播相关的玩法。本项目通过对平台用户应用数据的获取,实时统计日活、留存、玩法等相关数据,展示到数据后台,根据数据分析结果调整运营策略,优化APP使用体验以及APP相关玩法活动体验。
我的职责:
1.实时数据需求开发:使用FLink对业务日志数据进行处理,满足业务实时数据的统计需求。
2.临时数据报表拉取:独立编写python脚本,满足业务 H+1 实时数据报表需求,为市场、运营、产品提供有力支撑。
3. SQL优化:优化数据接口所用的 SQL ,使得 90% 的接口所用 SQL 查询时间从秒级优化至亚秒级别,使得接口调用所需时间减少80%以上。
4.数据接口编写:独立负责使用 Dubbo 框架编写 gRPC 数据接口, 对接公司大数据后台。
5.服务器升级:独立负责大数据阿里云服务器多次机器性能升级,并使磁盘平滑扩容至 TB 级别。
6.监控、维护实时大数据系统:处理突发情况以及性能瓶颈问题,保证数据的准确性与实时性,以及大数据系统的稳定性。
项目2:离线计算大数据系统
涉及组件:Flume、Kafka、Hadoop、Hive、Spark、Kudu、Presto
项目背景: XXXX是一款立足于海外的音乐社交APP,主打音乐+社交的游戏交友模式。本项目通过对APP日志数据的获取,通过离线计算的模式,为产品、运营提供数据基础,通过数据分析来优化用户APP使用体验,优化APP活动设计策略。
我的职责:
1.离线大数据系统的部署:基于 AWS 的 EMR 系统,独立负责离线大数据系统的 UAT 环境的部署,协助运维部署线上环境。
2.解决数仓搭建中遇到的技术问题:如编写Hive外部表定时修复脚本,测试数据脚本等。