ID:160397

attitude

大数据开发工程师

  • 公司信息:
  • 软通动力信息技术有限公司
  • 工作经验:
  • 3年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 所在区域:
  • 北京
  • 海淀

技术能力

熟悉前端开发熟悉开窗sql完成指标统计熟悉 Java、Scala 等语言编程,熟悉 Hive 架构、窗口函数使用、可熟练利用 HQL 独立完成离线指标的统计分析,熟悉 Flume 架构,能够自定义拦截器,灵活处理 HDFS 端小文件优化问题
8. 熟悉 kafka 架构及参数优化,相关问题的解决

项目经验

项目一
青果学院 数据采集系统 2018.09 - 2019.04
使用技术:kettle + Flume+Kafka+Hadoop+Sqoop+mysql
项目描述:这是一个基于在线教育的数据采集系统,使用 kettle 完成数据的抽取清洗以及各种脚本的定时调
度。通过 Flume、Kafka 等组件将日志服务器和业务数据库的数据导入 HDFS 为数据仓库提供数据。
责任描述:
1. 调研搭建日志采集相关框架,安装部署所有相关组件并进行调优。
2. 编写 Flume 脚本、配置 Kafka 文件、编写 Sqoop 脚本。
3. 使用双层 Flume 采集日志行为数据,对接 Kafka 集群,将数据保存到 HDFS
4. 使用 kettle 工具定时调用 Shell 脚本 将 MySQL 中的业务数据导入到 HDFS 中
涉及技术:
1. 第一层 Flume 使用 Taildir Source+Kafka Channel,自定义 ETL 拦截器,过滤掉不符合 Json 格式的
脏数据。
2. 第二层 Flume 自定义 Timestamp 拦截器,抽取日志中的事件时间作为 HDFS 中的存储目录名。
3. 编写 Sqoop 脚本 把 Mysql 数据导入 HDFS。
4. 使用 ganglia 监控 flume 运行状态,使用 KafkaEgle 监控 Kafka 集群状态。
项目二
青果学院 离线数据仓库系统 2019.06 - 2020.07
使用技术:Hadoop+Hive+Spark+Sqoop+Azkaban+Superset
项目描述:通过日志采集系统和业务数据库采集到 HDFS 上的数据搭建数据仓库,对数据进行分层解耦,
每一层对数据进行不同操作,清洗、拆分、重组、轻度聚合等;为公司提供所有系统数据支持的战略决
策。
责任描述:
1. 加载 HDFS 数据到 Hive,将数据分为 ods、dwd、dws、dwt、ads 五层并编写各层导入数据的
Shell 脚本。
2. 统计日活、试听引导成单率、各学科退课订单总额、退课率、沉默用户等指标。
3. 统计最近连续三周活跃学生、最近十五天连续七天的活跃学生数等指标。
4. 统计 人均学习时长、用户行为转化率(漏斗分析)、各年级学生学习时长分布等指标。
5. 统计课程销售总额、收藏、差评排名以及课程最近 30 天退款率排名。
6. 设计学生拉链表。
涉及技术:
1. ODS 原始数据层采用 LZO 压缩和分区存储,备份数据,节省磁盘空间
2. DWD 数据明细层采用星型模型进行维度建模,自定义 UDTF 函数解析 Json 数据,
使用 HiveSQL 对数据进行清洗和脱敏,过滤重复数据。
3. DWS 层统计站在不同维度的视角,统计各个主体对象的当天行为。
4. DWT 层统计每个维度下的不同的度量值,首次、末次时间、累计至今的度量值及累计某个时间段的度
量值。
5. 使用 Zabbix 对集群进行监控,服务器出现问题以邮件方式给开发人员发警报信息。
6. 使用 Ranger 对数据访问权限进行管理、使用 Atlas 查询数仓中表的字段和依赖关系。
项目三 青果学院 实时数据分析系统 2020.07 - 2020.12
使用技术:Canal+Kafka+Spark+Flink+Redis
项目描述:青果学院实时数据分析系统是一个使用 Spark 技术,对用户数据进行实时分析的系统。用户行为
数据通过 Flume 实时采集发送到 Kafka,业务数据通过 Canal 从 MySQL 导入到 Kafka,在实时计算平台
上部署 Spark 作业提取数据指标,直接推送到实时应用服务中。
责任描述:参与项目框架搭建,使用 Spark Streaming 实现日活、课程销量分时趋势、优惠券风险
预警、用户购买行为等指标的统计分析。
涉及技术:
1. 使用 Canal 实时监控、抓取业务数据库中新增变化的数据.
2. Spark Streaming 采用直连模式消费 Kafka 中的数据,手动维护 offset,将 offset 保
3. 存在 MySQL 中,实现精准一次消费 。
4. 使用 Process Function 用来进行有状态的编程以及实现自定义的业务逻辑。
5. 计算日活时使用 Redis 对启动日志去重;分析用户购买行为时使用 Redis 作为缓存点,
6. 实现双流 Join 效果
7. 引入 Flink 的 CEP 库,对于恶意登录和课程购买实时监控情况进行分析。

案例展示

  • 青果学院

    青果学院

    青果学院定位于中学生网络课堂服务平台,提出“翻转课堂”教学模式。“翻转课堂”是一种全新的O2O(线上到线下)的教学模式,线上采用直播+录播的方式授课,线下下沉到二三四线城市。学生在家利用视频课程完成知识的学习,而课堂变成了老师与学生之间、学生与学生之间互动的场所,包括答疑解惑、知

  • 什么值得买app

    什么值得买app

    什么值得买是一家消费门户网站,实时推送优质的网购优惠信息,真实的原创购物攻略,力求成为消费者心目中的“品质消费第一站”

查看案例列表(含更多 0 个案例)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服