掌握Linux 基础操作命令,能够编写简单的 Shell 脚本
熟练Mysql,Oracle等主流数据库,能够基于MySQL等数据处理引擎进行数据开发
熟悉Hadoop组件的Hdfs读写流程、MapReduce计算流程、Yarn资源调度
掌握Hive窗口函数及内置函数的使用,能够基于Hive进行数据开发
熟悉Flink流计算框架,有过实时项目经验熟悉Flink内部运行机制
熟悉Spark架构的执行流程以及工作原理,以及RDD之间的依赖和Spark的容错机制
熟悉Hbase架构原理及读写流程、rowkey设计原则、Hbase性能优化
掌握Kafka基本原理,使用Kafka消息中间件存储并消费数据
熟悉使用Flume完成日志采集,使用Sqoop完成义务数据的导入
熟练使用阿里数据中台DataWorks DI、DataHub等数据接入组件
熟练Azkaban、sqoop、dataX等开源的ETL调度、同步工具
熟悉Clickhouse、Kylin、Presto等OLAP引擎的原理以及源码
熟练使用FineBI、Sugar等可视化报表组件
熟悉数据仓库建设和维度建模,有较丰富的离线或实时数仓建设和数据 ETL 设计开发的经验
通过Flume程序实时监控采集商城日志数据文件,实时采集到kafka作为原始日志数据
使用FlinkCDC实时迁移Mysql中的用户行为数据存到kafka中构建ods层
调用重分区算子,rescale,rebalance,shuffle解决kafka的topic分区之间数据不均匀,防止数据倾斜
负责构建dwd层通过Flink应用程序使用操作符对ods层数据进行清洗,过滤等操作
使用redis作为热点数据的旁路缓存,使用Flink的异步IO实现对外部系统的异步访问,提高程序性能
构建DWS宽表:通过预加载,双流join,lookupjoin实现维度关联,将宽表数据存入Clickhouse
使用异步IO实现连续发送多个请求,提高并发效果,减少多请求等待带来的消耗
通过ReplacingMergeTree保证最终一致性,查询时的sql语法加上去重逻辑,保证ClickHouse的一致性
利用web ui定位,查看火焰图平顶,并分析GC日志,调整资源解决Flink反压
ADS层指标:产品总数,上架商品的sku/spu数,交易成功指标数,浏览下单数,支付买家数等
使用DataV调用接口进行可视化报表展示
参与将项目部署到Flink on Yarn,通过WebUI查看资源使用,以提高集群的资源利用率
负责阿里云离线项目的整体架构设计和实施,包括技术选型、系统数据流程设计等
使用Flume等日志采集工具进行日志采集和聚合
利用MaxCompute等大数据计算框架进行数据处理和分析,为项目提供数据支持
使用Quick BI、DataV等工具进行数据可视化展示,为项目提供直观的数据视图
负责数据的安全性和隔离性,采取必要的措施防止数据异常和敏感数据泄露
设置定时调度任务,对项目进行监控和管理,确保项目的正常运行