ID:262389

凡人多烦事 有团队

高级大数据开发工程师

  • 公司信息:
  • 亚信科技
  • 工作经验:
  • 5年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 所在区域:
  • 北京
  • 海淀

技术能力

熟悉使用 Java,Scala 编程语言,有良好的代码编写习惯;
熟悉使用 Hive SQL 语句,对离线业务指标的进行分析,及独立完成常见的 Hive 优化;
熟悉使用 Spark core,Spark SQL 完成数据分析处理,以及运用 Spark streaming 完成实时业
务处理,并且可以完成常见的 Spark 性能优化;
熟悉 Flink 运行架构,熟练使用 Flink 批处理及流处理,能够使用 FlinkAPI、FlinkSQL 编
写实时计算任务;
熟悉使用 hadoop, 对 MapReduce 的原理、HDFS 读写、Hadoop 调优、Yarn 的调度机制有一定
的了解;
熟练使用 MySQL,HBase,hive,Redis,等存储引擎;
熟练掌握 Flume 采集工具,具有使用 FLume 搭建大数据日志采集系统的经验;
熟悉使用 Kafka ,能够独立解决 Kafka 常见问题,及优化;
熟悉使用 Sqoop,Maxwell,DataX 等数据迁移工具;
熟悉使用 Presto,Kylin 等即席查询工具;
熟悉使用 Azkaban 任务调度,Zabbix 集群监控,Atlas 元数据管理等工具;
熟悉使用 Linux 系统,能够编写简单的 shell 脚本;
具备多项目数据仓库搭建、建模以及指标分析开发经验

项目经验

项目名称:**商城 APP 离线数仓项目 (2019 年 12 月–2020 年 10 月)
相关技术:Flume+Sqoop+mysql+hdfs+hive+superset+kylin+Azkaban
项目描述:
**商城 app 通过招商引入海量品牌,用专业的流行资讯与优质的产品服务结合。给消费者传递一种简
单、轻松的生活态度。该项目是通过海量业务和日志数据进行挖掘分析,通过搭建数仓,分析统计设备,会
员,商品,活动等相关指标分析,通过分析数据为商家提供战略支持,为更好的定制活动、计划提供数据分
析!
技术描述:
1. 使用 Flume 监听日志数据到 hdfs 中,采用 Lzo 压缩
2. 使用 Sqoop 从 mysql 同步业务数据到 hdfs
3. 使用 hive 加载 hdfs 数据,创建分层,分为 ods 层、dwd 层、dws 层、dwt 层、ads 层、
4. 使用 hive sql 对 ods 层数据进行清洗、脱敏
5. 使用 hive sql 统计各个主题的指标,如:用户的性别分布、年龄分布、市场地区分布、商品销量、新
增用户、留存率等相关指标计算
6. 统计好的指标存入 mysql、跟 superset 可视化工具对接
7. 使用 Kylin 完成即席查询,使用 Azkaban 完成任务调度
3. 对清洗后的日志数据和业务数据进行分流处理
4. 使用 Flink 读取清洗后的数据,使用滑动窗口步长一小时每分钟聚合一次,计算热门商品、活跃用户等
5. 将统计好的访客 pv、uv、商品的下单、收藏、支付、退款等指标数据存入 clickhouse 中
6. 使用 SpringBoot 查询 clickhouse 提供查询接口
责任描述:
1. 参与项目调研、技术选型、指标制定
2. 负责业务数据、日志数据采集模块开发,对原数据进行管理
3. 负责 Flink 进行实时数据清洗、分流处理等模块开发
4. 负责分析计算商品销量排名、活跃用户、地区销量分布等业务指标
5. 参与项目测试、日常维护、bug 修复以及业务需求更新和拓展

项目名称:游侠客 APP 日志分析系统 (2018 年 12 月–2019 年 08 月)
相关技术:Flume+kafka+Spark+HDFS+Hive+Hbase+Sqoop+sugar
项目描述:
本项目是为一个旅游 app 进行日志分析处理的系统,项目主体分为 3 层架构,数据收集层,数据分
析层和数据展示层,旨在构建智慧旅游的系统,本系统提供离线的数据分析,如指定路线日(月、年)客流
量统计、指定交通方式月(年)人次统计、指定景区的市场分析;以及实时处理的用户推荐转化率;
技术描述:
1. 使用 Flume 收集各种服务器的数据,将数据实时传输到 kafka,收集日志数据;
2. 基于 Spark 和 hadoop 构建一套 HDFS+Hive+SparkSql 的数据仓库;
3. 离线分析时通过 mapreduce 对数据进行清洗,然后使用 Hive 表和自定义 UDF 函数对数据进行离线分析;
4. 将分析的数据通过 Sqoop 导入到 mysql 中,以便展示;
5. 实时分析时通过 kafka 传输的数据直接对接 SparkStreaming,通过算子将数据进行清洗,最后实时分
析计算指标,将数据也写入 mysql 中;
6. 将 mysql 中的数据通过 ssm 和页面展示,便于使用者观看
责任描述:
责任描述:
1. 参与前期调研和技术框架选型
2. 负责数据采集部分的开发
3. 负责部分业务日常维护和新需求的开发
4. 负责部分主题指标的开发
5. 参与即席查询的开发
6. 参与项目测试和上线部署

团队情况

  • 整包服务: 其他开发   
角色 职位
负责人 高级大数据开发工程师
队员 产品经理
队员 前端工程师
队员 后端工程师

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服