ID:341443

(= ̄ ρ ̄=) ..zzZZ

大数据开发工程师

  • 公司信息:
  • 腾讯云计算有限责任公司
  • 工作经验:
  • 8年
  • 兼职日薪:
  • 800元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 可工作日远程
  • 所在区域:
  • 北京
  • 海淀

技术能力

技术架构:Nginx、Springboot、Flume、Kafka、MqSQL、Sqoop、Hadoop、Zookeeper、HBase、Mysql、Azkaban、Atlas、Range、Griffin、Superset、Presto

项目经验

腾讯云湖仓一体实时项目 2022.03-2024.04
技 术 架 构:FlinkCDC、firebeat、logstash、upsert-kafka、kafka、Flink、hudi。开发工具:IDEA + Oceanus流计算平台
项目描述:FlinkCDC将业务数据导入到Kafka的主题中,形成ods层.使用Flink对接Kafka,消费kafka中 的
数据至hudi,按照预定的数仓结构,使用hudi读和写的能力将ods层的业务数据经过Oceanus平台流式计算平台的处理 形成对应的dwd层放置在hudi中,日志埋点数据通过firebeat发往logstash再次发往MQ,输出到hudi中。
技术要点:
1.使用 FlinkCDC 将业务数据导入到 Kafka中的topic中(json or csv).
2.使用 Flink 读取kafka 层的业务数据,对数据进行逻辑加工设定成满足hudi配置的一些参数
3.读hudi表数据逻辑加工统计数据输出至hudi
4.Hudi新式框架的特性,表模式(mor,cow),buckert索引,插入(upsert insert)的模式等相关的一些知识点
5.Hudi表双流拼接功能解决流式join问题
6.流式任务,SparkSql操作hudi表(增删改查)对hudi表读任务的异常和下游数据回撤的功能
7.数据发往数据湖,数据倾斜致使某个bucket数据量变多,其它变少,致使写入hudi的小文件过多问题
8.Hudi表开启异步压缩,减少在线压缩内存的消耗。
9.Hudi写入背压增大,调节背压
流量监控各个阶段保证任务正常运行。

案例展示

  • 腾讯云湖仓一体

    腾讯云湖仓一体

    1.有离线与实时任务开发经验, 可以快速熟悉业务上手开发 2.有数仓建模经验,能够根据实际情况对指定任务进行优化 3.为人稳重负责,善于沟通,对新技术的研究有着充足的热情;具有良好的团队协作能力; 4.能够严格按照公司的制度规范自己,对工作认真负责,做到工作能够日结,对业务

  • 腾讯云湖仓一体

    腾讯云湖仓一体

    1.有离线与实时任务开发经验, 可以快速熟悉业务上手开发 2.有数仓建模经验,能够根据实际情况对指定任务进行优化 3.为人稳重负责,善于沟通,对新技术的研究有着充足的热情;具有良好的团队协作能力; 4.能够严格按照公司的制度规范自己,对工作认真负责,做到工作能够日结,对业务

查看案例列表(含更多 0 个案例)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服