Java / Python / SQL / Scala / JavaScript / C++ / C# / Go
Spark / Hadoop / Flink / Hive / Kylin / Impala / PyTorch / TensorFlow
ML / DL / CV / NLP
阿里巴巴淘票票 - 会员中台建设
• 背景:淘票票会员业务线原有 60 余个” 烟囱式” 开发任务,存在严重的数据延迟、口径混乱、维护成本 高、逻辑冗杂等问题。根据运营侧的数据需求和规划,重构淘票票会员业务中台。
• 技术方案:以维度建模理论为指导,结合 AliCloud + Hadoop + Spark + Flink等工具。
• 个人工作:参与业务主题域划分和开发规范制定,主导各主题模型分层设计和 ETL 开发等工作,与运营和分析师合作确定业务核心指标口径。
• 项目成果:重构后的会员中台数据分层明确、产出及时、易于维护、口径准确唯一。建立报表系统以支持各维度层级下指标的下钻和上卷,使业务同学更高效直观的使用数据。 目前重构的会员中台已上线,使用的运营人员达 20 余人,获得运营主管的肯定。
网易云音乐 - 运营推歌助手
• 背景:分析各爆款歌曲数据,使用机器学习模型对曲库中的长尾歌曲进行挖掘,将高潜歌曲推荐 给市场部同学进行推广引流。
• 技术方案:Spark、Scala、机器学习。1)项目难点在于标签缺失(大量歌曲无标签)和正负样本不 平衡(爆款歌曲很少)。2)先分析爆款歌曲和长尾歌曲数据分布规律,使用聚类算法对无标签歌 曲进行初步打标,使用 LR+GBDT 模型筛选出部分高潜歌曲供市场部同学人工打标,回流的带标 签数据加入训练样本重新迭代。
• 个人工作:数据分析 + 算法开发。
• 项目成果:每周提供 10 首高潜歌曲供市场部推广,周引入新客 10w。
角色 | 职位 |
负责人 | 算法工程师 |
队员 | 产品经理 |
队员 | UI设计师 |
队员 | 安卓工程师 |
队员 | 前端工程师 |
队员 | 后端工程师 |
中国双高人群众多,原因复杂,是脑卒中、冠心病等严重疾病的主要原因。国内最大的预防医学流量入口平台美年健康,每年生产和管理着数以千万计的健康大数据。如何推动健康数据和AI的融合,实现双高早期筛查并及时干预,对延缓疾病显性化和防止慢病重症化的有着重要意义。 使用机器学习和NLP
以维度建模理论为指导,完成数据仓库的分层建模。 使用Spark/Hadoop/Flink等平台完成ETL任务的开发。 基于Impala建设OLAP查询引擎,实现数据的多维度自主查询。
歌曲潜力多维度分析 KPI分析 评估模型 产品化 分析维度扩展 层次结构模型 成对比较矩阵&一致性检验 歌曲分类+完整生命周期+预测 构建时序特征 -> 聚类分析探索 -> 观测分析+人工生命周期打标 -> Label=标签 | Feat