ID:320283

数据-鱼的记忆 身份已认证

高级数据开发

  • 公司信息:
  • 上海嘉峪智能科技有限公司
  • 工作经验:
  • 8年
  • 兼职日薪:
  • 600元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 可工作日远程
  • 所在区域:
  • 上海
  • 闵行

技术能力

擅长使用flink进行实时数据开发,独立负责过日增TB级数据量的项目经验。
拥有丰富的性能优化及反压问题定位修复经验。
拥有针对特定的业务场景的优化方案设计能力,大幅度提高任务性能及稳定性。
拥有搭建数据仓库的经验,包括数据采集,入库,计算,监控告警等。
flink 二次开发,flink sql client,phoenix connector,postgre connector(do nothing版本)。
目前使用过的技术:
调度系统:dolphinScheduler
任务计算引擎:离线spark,实时flink
其他组件:kafka,hdfs,hbase,clickhouse,elasticsearch,redis,aws redshift,aws s3,aws emr等

项目经验

一、参与并主导完成TB级实时出行服务框架的搭建
导致反压的原因:频繁访问多种外部组件
解决方式:使用广播流的方式降低,redis和mysql的压力

数据接入、解析、赋值
多种维度数据生成的广播流
维度属性赋值使用全量redis/mysql+增量kafka的方式,保证数据即时更新
双流join
射线法,判断点是否在不规则多边形内
唯一标识判断、赋值,对一段时间内的连续行为,添加相同的标识,类似session id
事件时间的超时判断及系统时间的超时判断
指标计算
使用类AggregatingState的实现,优化代码
解决shuffle中乱序导致的状态数据持续累计变大,最终导致的任务失败



二、独立完成出行服务中的事件识别并上线
基于业务需求,将出行服务中的事件按照触发型、趋势型和特殊型。
配置表方式支持灵活配置和可扩展化,实现出行服务中核心原子事件的识别。
供不同业务方使用。核心原子事件包括但不限于:行程的开始结束识别、油箱液位变化异常识别、速度阈值跳变识别等。


三、主导重构离线数据仓库体系建设
此处并未使用调度系统,单纯依赖linux的crontab功能

数据采集:定时采集,入库配置化。
数据分层:利用 ONE-DATA 理念对数仓分层设计ODS,DWD,DWS,ADS,并基于 json 映射机制创建外部表,提高了了数据源结构的灵活性。
监控告警:python开发监控脚本工具,引入到日常sql任务中。

案例展示

  • 离线和实时项目

    离线和实时项目

    擅长使用flink进行实时数据开发,独立负责过日增TB级数据量的项目经验。 拥有丰富的性能优化及反压问题定位修复经验。 拥有针对特定的业务场景的优化方案设计能力,大幅度提高任务性能及稳定性。 拥有搭建数据仓库的经验,包括数据采集,入库,计算,监控告警等。 flink 二次

  • 大数据项目及性能提升

    大数据项目及性能提升

    一、参与并主导完成TB级实时出行服务框架的搭建 导致反压的原因:频繁访问多种外部组件 解决方式:使用广播流的方式降低,redis和mysql的压力 数据接入、解析、赋值 多种维度数据生成的广播流 维度属性赋值使用全量redis/mysql+增量kafka的方式,保证

查看案例列表(含更多 0 个案例)

相似人才推荐

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服