5年以上的数据挖掘和机器学习开发经验,专注于数据科学领域的学习和研究,参与过多个项目的算法部署落地,善于思考,沟通能力强,具有较强的业务能力,技术体系完善,在nlp和cv方向也有相关的知识积累和经验。
职位描述:负责 Python 相关开发相关机器学习算法开发和落地(数据科学和算法预测方向); 具体是负责 Funplus 内部游戏用户预测和增长引擎相关系统的搭建和落地,做过游戏内社交 图谱的探索和研究,同时负责 NLP 序列化标注算法开发和部署的工作。 一.用户预测相关模型开发与线上部署 项目简述:基于 Funplus 几款游戏内的玩家行为数据,对玩家做时间序列方面的预测(时间 颗粒度:按天),主要包括流失预测和付费预测两大类,具体如下: 1. 流失预测:包括用户流失预测和用户活跃度预测模型 核心部分:主要是对数据进行预处理和特征工程,其中主要是利用滑窗的思想对时间序列数 据进行特征画像(核心时间窗口:候选窗口,历史窗口,观察窗口),训练目标是未来几天用户 是否流失;模型方面选择的是 LGBM 算法框架和 Bi-lstm 模型; 2. 付费预测:包括用户付费概率预测和大 R 预测模型 核心部分:数据处理基本和上面一致,特征工程部分滑窗的思想保留,这里的特征工程画像 主要是围绕着付费进行设计和处理的,包括利用 RMF 模型处理特征等,训练目标是玩家未 来几天是否付费;模型方面依然选择的是 LGBM 算法框架和 Bi-lstm 模型,这里模型在训练 的时候根据用户的生命周期 LV 进行了细化训练;
3. 模型训练管理和线上部署:这里模型训练过程中使用 mlflow 框架对模型训练进行管理和 可视化,主要是能保留和跟踪每一次模型训练的结果和过程;线上部署,因为是任务调度型 的,主要就是写调度流程和并行处理的框架,支持多项目配置,自动获取项目任务等,利用 supervior 保证程序 24 小时稳定运行。 二.用户增长引擎: 项目简述:除了上述一中的用户预测相关模型输出结果外(这里的模型主要是集成了上述的 个模型中的流失预测和付费预测),还对模型的可解释性进行一个处理,其中包括聚类和特 征工程归一化处理,具体: 1.模型和相关数据开发:主要是根据游戏内付费和登录行为对玩家进行处理和聚类(聚类标 签有 4 类付费*3 类登录,共计 12 类标签),特征选用一中的特征,算法用的是 k-nn;特征 归一化部分更偏重数据处理,就是根据模型 feature-importence 将主要的 8 个维度进行处理 和归一化,主要用于雷达图的数据,难点是在于怎么统一处理标签类和数值类等问题; 2. 线上部署:核心部分:线上的调度流程和框架和一是一样的,区别在于在进行模型预测 时,线上框架根据不同任务进行不同模型的预测和结果输出,这部分集成到上面的框架。 三.游戏内社交图谱探索: 项目简述:这个项目主要是探索性的业务,主要是根据用户的聊天数据,进行数据图谱化, 基于 neo4j 进行数据探索和社交关系挖掘,其中融合了游戏内玩家的其他数据,具体: 1. 聊天数据图谱化:根据用户聊天的 from 和 to 建立节点(主要有 user、group、room 等 节点)和关系(p2p,p2g,p2r),并根据聊天数据对节点和关系进行画像(反应到节点和关系 的属性上),这部分的工作重心主要是机构化数据自动处理和自动导入的相关代码。 2. 数据融合:将游戏内用户的登录和付费数据和图数据库数据进行融合,进行数据探索和 挖掘,这里主要探索了付费玩家的网络关系和非付费的差异(付费玩家和非付费玩家的二度 关系付费差异很大);后面研究过图向量和 GCN/GNN 等相关知识,但因为产品和业务问 题,并没有深入具体的去做; 四. NLP 序列化标注: 1. 机器翻译分词模块:主要是基于开源分词数据+互联网新词+公司聊天累计数据等来优化 分词模块;包括基础预料预处理的标准制定、数据清洗、模型训练、线上对接翻译系统和相 关部署;模型训练主要是基于 CRF++框架和 Bilstm-crf 两种算法进行实验对比,两个算法最 终的结果都优于 jieba、hanlp 等开源的分词;最终上线的是 crf++,部署方式是 flask。 2. 实体识别和抽取:主要针对于翻译中出现的中文实体进行优化和抽取;主要是对中文人 名/地名/音译名等进行抽取和识别模块;该部分主要基于人民日报数据+常用人名(包括外 国音译和日本名等),算法用的 bilstm+crf,部署也是 flask。 五.其他:参与专利编写,以及文本标注和图片标注项目的创建和管理等。
角色 | 职位 |
负责人 | 高级ai工程师 |
队员 | 产品经理 |
队员 | 后端工程师 |
推荐算法 主要在工业界使用了推荐算法在我们的系统中 1.召回算法 itemcf 物品协同过滤 实现 由此产生了基于物品的协同过滤(itemCF)给用户推荐和他们之前喜欢的物品相似的物品。不过ItemCF算法不是根据物品内容属性计算物品之间相似度,它主要通过分析用户的行为记
项目简述:基于 Funplus 几款游戏内的玩家行为数据,对玩家做时间序列方面的预测(时间 颗粒度:按天),主要包括流失预测和付费预测两大类,具体如下: 1. 流失预测:包括用户流失预测和用户活跃度预测模型 核心部分:主要是对数据进行预处理和特征工程,其中主要是利用滑窗的思想对时