猿急送>

北京其它兼职程序员

ID：262389

凡人多烦事有团队

高级大数据开发工程师

公司信息：
亚信科技

工作经验：
5年

兼职日薪：
500元/8小时

兼职时间：
下班后
周六
周日

所在区域：
北京
海淀

技术能力

熟悉使用 Java,Scala 编程语言，有良好的代码编写习惯;
熟悉使用 Hive SQL 语句,对离线业务指标的进行分析,及独立完成常见的 Hive 优化;
熟悉使用 Spark core,Spark SQL 完成数据分析处理，以及运用 Spark streaming 完成实时业
务处理，并且可以完成常见的 Spark 性能优化;
熟悉 Flink 运行架构，熟练使用 Flink 批处理及流处理，能够使用 FlinkAPI、FlinkSQL 编
写实时计算任务;
熟悉使用 hadoop, 对 MapReduce 的原理、HDFS 读写、Hadoop 调优、Yarn 的调度机制有一定
的了解;
熟练使用 MySQL,HBase,hive,Redis,等存储引擎;
熟练掌握 Flume 采集工具,具有使用 FLume 搭建大数据日志采集系统的经验;
熟悉使用 Kafka ,能够独立解决 Kafka 常见问题,及优化;
熟悉使用 Sqoop,Maxwell,DataX 等数据迁移工具;
熟悉使用 Presto,Kylin 等即席查询工具;
熟悉使用 Azkaban 任务调度,Zabbix 集群监控,Atlas 元数据管理等工具;
熟悉使用 Linux 系统,能够编写简单的 shell 脚本;
具备多项目数据仓库搭建、建模以及指标分析开发经验

项目经验

项目名称：**商城 APP 离线数仓项目 (2019 年 12 月–2020 年 10 月)
相关技术：Flume+Sqoop+mysql+hdfs+hive+superset+kylin+Azkaban
项目描述：
**商城 app 通过招商引入海量品牌，用专业的流行资讯与优质的产品服务结合。给消费者传递一种简
单、轻松的生活态度。该项目是通过海量业务和日志数据进行挖掘分析，通过搭建数仓，分析统计设备，会
员，商品，活动等相关指标分析，通过分析数据为商家提供战略支持，为更好的定制活动、计划提供数据分
析！
技术描述：
1. 使用 Flume 监听日志数据到 hdfs 中，采用 Lzo 压缩
2. 使用 Sqoop 从 mysql 同步业务数据到 hdfs
3. 使用 hive 加载 hdfs 数据，创建分层，分为 ods 层、dwd 层、dws 层、dwt 层、ads 层、
4. 使用 hive sql 对 ods 层数据进行清洗、脱敏
5. 使用 hive sql 统计各个主题的指标，如：用户的性别分布、年龄分布、市场地区分布、商品销量、新
增用户、留存率等相关指标计算
6. 统计好的指标存入 mysql、跟 superset 可视化工具对接
7. 使用 Kylin 完成即席查询，使用 Azkaban 完成任务调度
3. 对清洗后的日志数据和业务数据进行分流处理
4. 使用 Flink 读取清洗后的数据，使用滑动窗口步长一小时每分钟聚合一次，计算热门商品、活跃用户等
5. 将统计好的访客 pv、uv、商品的下单、收藏、支付、退款等指标数据存入 clickhouse 中
6. 使用 SpringBoot 查询 clickhouse 提供查询接口
责任描述：
1. 参与项目调研、技术选型、指标制定
2. 负责业务数据、日志数据采集模块开发，对原数据进行管理
3. 负责 Flink 进行实时数据清洗、分流处理等模块开发
4. 负责分析计算商品销量排名、活跃用户、地区销量分布等业务指标
5. 参与项目测试、日常维护、bug 修复以及业务需求更新和拓展

项目名称：游侠客 APP 日志分析系统 (2018 年 12 月–2019 年 08 月)
相关技术：Flume+kafka+Spark+HDFS+Hive+Hbase+Sqoop+sugar
项目描述：
本项目是为一个旅游 app 进行日志分析处理的系统，项目主体分为 3 层架构，数据收集层，数据分
析层和数据展示层，旨在构建智慧旅游的系统，本系统提供离线的数据分析，如指定路线日（月、年）客流
量统计、指定交通方式月（年）人次统计、指定景区的市场分析；以及实时处理的用户推荐转化率；
技术描述：
1. 使用 Flume 收集各种服务器的数据，将数据实时传输到 kafka，收集日志数据；
2. 基于 Spark 和 hadoop 构建一套 HDFS+Hive+SparkSql 的数据仓库；
3. 离线分析时通过 mapreduce 对数据进行清洗，然后使用 Hive 表和自定义 UDF 函数对数据进行离线分析；
4. 将分析的数据通过 Sqoop 导入到 mysql 中，以便展示；
5. 实时分析时通过 kafka 传输的数据直接对接 SparkStreaming，通过算子将数据进行清洗，最后实时分
析计算指标，将数据也写入 mysql 中；
6. 将 mysql 中的数据通过 ssm 和页面展示，便于使用者观看
责任描述:
责任描述：
1. 参与前期调研和技术框架选型
2. 负责数据采集部分的开发
3. 负责部分业务日常维护和新需求的开发
4. 负责部分主题指标的开发
5. 参与即席查询的开发
6. 参与项目测试和上线部署