⚫ Spark: 精通Spark 相关技术,能使用对应 API 实现离线及准实时计算。
⚫ Flink:精通Flink 原理,能够解决一些数据倾斜何延迟问题。
⚫ Hive:精通HiveSQL 对数据进行统计分析,掌握开窗函数,分区及分桶等,处理数据倾斜问题。
⚫ Kafka:精通Kafka 的组织架构,集群配置,及 ISR 机制,可以解决 Kafka 中常见的数据丢失和重复消费问题。
⚫ Flume:精通Flume 的架构,通过配置 Flume 对数据进行采集。
⚫ 用户画像:bitmap 分群, 用户分群(RFM 模型, RFE 模型, PSM 模型, USG 模型)。
⚫ 机器学习:掌握线性回归,逻辑回归,K-Means 聚类算法,KNN 分类算法,混淆矩阵,决策树,梯度下降,Apriori,
Word2Vec 等。
⚫ HBase:精通HBase 架构原理,解决 HBase 热点问题。
⚫ Linux:精通Linux 系统,熟练使用常用的 Linux 操作命令。
⚫ Hadoop:精通Hadoop 中的 HDFS,Yarn 和 MapReduce 底层实现原理。
⚫ 编程语言:掌握Scala,Java,了解 C,Python,Shell。
⚫ 其他:Zookeeper,Flume,Canal,Maxwell,Sqoop,DataX,Clickhouse,Elasticsearch,Redis,Kylin,
Azkaban,Superset。
项目一:个性化推荐推荐系统
本项目是基于海量用户与海量数据,使用 lambda 大数据实时和离线计算整体架构,利用用户在
上的行为数据与历史业务数据进行实时和离线用户画像的刻画,采取多路召回的手段对商品进行召
回,对召回商品进行融合排序后,结合用户画像对不同用户根据其喜好进行精准推送,减少公司的营销成本,
提升用户的满意度。
项目二:直播销售实时数据分析
本项目主要是收集针对直播销售的直播业务数据,经过统一口径加工处理,通过多种数据服务支撑主题报表,
数据分析等多种方式的应用,为品牌方提供实直播间商品销售情况的实时业务数据的监控和直播间观众的动
态。
项目三:商户离线数据分析
本项目主要是对电商平台的业务数据和日志数据的离线分析处理,目的在于为大中华地区的商家提
供数据支持,进行可视化报表的展示,帮助商家进行下一步的运营决策。
角色 | 职位 |
负责人 | 大数据开发工程师 |
队员 | 产品经理 |
队员 | UI设计师 |
队员 | 前端工程师 |
队员 | 后端工程师 |