擅长使用flink进行实时数据开发,独立负责过日增TB级数据量的项目经验。
拥有丰富的性能优化及反压问题定位修复经验。
拥有针对特定的业务场景的优化方案设计能力,大幅度提高任务性能及稳定性。
拥有搭建数据仓库的经验,包括数据采集,入库,计算,监控告警等。
flink 二次开发,flink sql client,phoenix connector,postgre connector(do nothing版本)。
目前使用过的技术:
调度系统:dolphinScheduler
任务计算引擎:离线spark,实时flink
其他组件:kafka,hdfs,hbase,clickhouse,elasticsearch,redis,aws redshift,aws s3,aws emr等
一、参与并主导完成TB级实时出行服务框架的搭建
导致反压的原因:频繁访问多种外部组件
解决方式:使用广播流的方式降低,redis和mysql的压力
数据接入、解析、赋值
多种维度数据生成的广播流
维度属性赋值使用全量redis/mysql+增量kafka的方式,保证数据即时更新
双流join
射线法,判断点是否在不规则多边形内
唯一标识判断、赋值,对一段时间内的连续行为,添加相同的标识,类似session id
事件时间的超时判断及系统时间的超时判断
指标计算
使用类AggregatingState的实现,优化代码
解决shuffle中乱序导致的状态数据持续累计变大,最终导致的任务失败
二、独立完成出行服务中的事件识别并上线
基于业务需求,将出行服务中的事件按照触发型、趋势型和特殊型。
配置表方式支持灵活配置和可扩展化,实现出行服务中核心原子事件的识别。
供不同业务方使用。核心原子事件包括但不限于:行程的开始结束识别、油箱液位变化异常识别、速度阈值跳变识别等。
三、主导重构离线数据仓库体系建设
此处并未使用调度系统,单纯依赖linux的crontab功能
数据采集:定时采集,入库配置化。
数据分层:利用 ONE-DATA 理念对数仓分层设计ODS,DWD,DWS,ADS,并基于 json 映射机制创建外部表,提高了了数据源结构的灵活性。
监控告警:python开发监控脚本工具,引入到日常sql任务中。
擅长使用flink进行实时数据开发,独立负责过日增TB级数据量的项目经验。 拥有丰富的性能优化及反压问题定位修复经验。 拥有针对特定的业务场景的优化方案设计能力,大幅度提高任务性能及稳定性。 拥有搭建数据仓库的经验,包括数据采集,入库,计算,监控告警等。 flink 二次
一、参与并主导完成TB级实时出行服务框架的搭建 导致反压的原因:频繁访问多种外部组件 解决方式:使用广播流的方式降低,redis和mysql的压力 数据接入、解析、赋值 多种维度数据生成的广播流 维度属性赋值使用全量redis/mysql+增量kafka的方式,保证