掌握常用的算法模型原理及应用,例如Xgboost、DeepFM、Node2vec、EGES、GCN、GraphSage、GAT、RGCN等;
掌握python、scala、hive等编程语言;
掌握hadoop和spark执行原理,并能针对性的优化任务;
项目一:京东逛好店频道页-店铺标签千人千面推荐(2019 年 10 月至 2019 年 12 月、京东)
背景:在推荐页面添加一些个性化的文案进行个性化引导购物。例如在传统的商品页底下添加上文案,例如“休闲舒适”等,用户可以根据休闲舒适进入到下一个个性化定制的有关“休闲舒适”的推荐页。
项目思路:1、CTR 模型 label 和特征数据建立:统计曝光点击数据,按照曝光未点击为 0,曝光点击为 1 作为label 值。按自有特征:sku 特征、三级品类特征、pin 特征、品牌特征、店铺特征;按组合特征:pin 组合的 4 个交叉维度;按实时特征等三个方面进行特征提取 2、CTR 模型模型筛选和训练阶段:选用的模型有
XGBoost、DeepFM、FM分别对这几种模型在离线数据下进行测试比较。
项目二: 商品同购模型(2020年6月-2020年11月、京东)
目标:同品同购商品搜索
项目思路:1、同购图构建。将用户在一定周期内下单的商品按照两两组合构成同购商品对,将所有用户的商品对进行聚合,最终合并为一个三元关系数据即SKUA-SKUB-共购次数,构成无向图中的的一个边。2、图采样方法挖掘更多不具有一度关系的商品对。主要使用的是 Node2vec 算法。3、生成的序列对得到商品的向量表示。采用的是word2vec算法。4、LSH算法求相似TOPN商品。
项目三:养号项目 (2021年3月-2021年5月、腾讯)
目标:在QQ生态体系下,对即将作恶的用户,在前期进行识别
项目思路:1、养号用户打标。根据养号用户定义,即从注册后很长时间无恶意行为,直到作恶为养号周期。由此根据作恶模型进行反向打标,得到养号用户。非养号且非风险用户即为模型的负例用户。2、模型选择。由于业务需求判定的养号具有可解释性,因此选取 xgboost 模型做二分类。根据 PU Learning 问题的常用评估指标选取合适的正负样本比例进行最终的模型。
项目四:黑产团伙挖掘项目(2021年7月-至今、腾讯)
目标:挖掘 QQ 生态下哪些用户所属一类作恶团体,例如哪些用户是一类诈骗团伙,团伙中用户的共性有哪些。并根据得到的风险团伙,输出关键性的风险设备,在用户注册初期,便对风险设备进行打击。
项目思路:方式1)选取用户登陆设备异构图,并将异构图转化为仅有用户的同构图,使用 Louvain using modularity density 进行社区划分。通过图表示的算法 node2vec,得到团伙内部节点的紧密程度,结合社区划分的结果,进行社区划分结果的修正,同时置信团伙对无监督的图表示结果进行反向修正和评估。 方式2)通过GAT图分类进行黑产和非黑产划分,而后经过连通图的方式进行聚合,得到黑产团伙。
通过修改原始WORD2VEC算法,实现ARIBNB中将order商品作为全局上下文。 可以通过运行embedding下的AribnbOrdPredict实现。运行代码中给定例子可以看出,对于序列为: 9744_81732,2679_372273,2679_411245,2679
一、aribnb global context 代码实现 通过修改原始WORD2VEC算法,实现ARIBNB中将order商品作为全局上下文。 可以通过运行embedding下的AribnbOrdPredict实现。运行代码中给定例子可以看出,对于序列为: 9744_8173