猿急送>

上海Java兼职程序员

ID：320283

数据-鱼的记忆身份已认证

高级数据开发

公司信息：
上海嘉峪智能科技有限公司

工作经验：
8年

兼职日薪：
600元/8小时

兼职时间：
下班后
周六
周日
可工作日远程

所在区域：
上海
闵行

技术能力

擅长使用flink进行实时数据开发，独立负责过日增TB级数据量的项目经验。
拥有丰富的性能优化及反压问题定位修复经验。
拥有针对特定的业务场景的优化方案设计能力，大幅度提高任务性能及稳定性。
拥有搭建数据仓库的经验，包括数据采集，入库，计算，监控告警等。
flink 二次开发，flink sql client，phoenix connector，postgre connector（do nothing版本）。
目前使用过的技术：
调度系统：dolphinScheduler
任务计算引擎：离线spark，实时flink
其他组件：kafka，hdfs，hbase，clickhouse，elasticsearch，redis，aws redshift，aws s3，aws emr等

项目经验

一、参与并主导完成TB级实时出行服务框架的搭建
导致反压的原因：频繁访问多种外部组件
解决方式：使用广播流的方式降低，redis和mysql的压力

数据接入、解析、赋值
多种维度数据生成的广播流
维度属性赋值使用全量redis/mysql+增量kafka的方式，保证数据即时更新
双流join
射线法，判断点是否在不规则多边形内
唯一标识判断、赋值，对一段时间内的连续行为，添加相同的标识，类似session id
事件时间的超时判断及系统时间的超时判断
指标计算
使用类AggregatingState的实现，优化代码
解决shuffle中乱序导致的状态数据持续累计变大，最终导致的任务失败

二、独立完成出行服务中的事件识别并上线
基于业务需求，将出行服务中的事件按照触发型、趋势型和特殊型。
配置表方式支持灵活配置和可扩展化，实现出行服务中核心原子事件的识别。
供不同业务方使用。核心原子事件包括但不限于：行程的开始结束识别、油箱液位变化异常识别、速度阈值跳变识别等。

三、主导重构离线数据仓库体系建设
此处并未使用调度系统，单纯依赖linux的crontab功能

数据采集：定时采集，入库配置化。
数据分层：利用 ONE-DATA 理念对数仓分层设计ODS，DWD，DWS，ADS，并基于 json 映射机制创建外部表，提高了了数据源结构的灵活性。
监控告警：python开发监控脚本工具，引入到日常sql任务中。

案例展示

离线和实时项目

擅长使用flink进行实时数据开发，独立负责过日增TB级数据量的项目经验。拥有丰富的性能优化及反压问题定位修复经验。拥有针对特定的业务场景的优化方案设计能力，大幅度提高任务性能及稳定性。拥有搭建数据仓库的经验，包括数据采集，入库，计算，监控告警等。 flink 二次
大数据项目及性能提升

一、参与并主导完成TB级实时出行服务框架的搭建导致反压的原因：频繁访问多种外部组件解决方式：使用广播流的方式降低，redis和mysql的压力数据接入、解析、赋值多种维度数据生成的广播流维度属性赋值使用全量redis/mysql+增量kafka的方式，保证