1、熟悉 Python\Scala\Java,了解 C++;熟悉 linux 和 shell;熟悉常用的数据结构和算法;
2、熟悉 Spark\MapReduce\Hadoop\HIVE 等大数据处理工具和原理,并熟练使用;
3、熟悉 LightGBM/XGB,GBDT+LR,RF,Adaboost 等传统机器学习算法原理,并熟练使用;
4、熟悉 Tensorflow 开源框架,了解 DNN,DeepFM/FFM/FNN,DSSM,ESMM,DIN 等推荐系统常用网络;
2020.06-至今 vivo 智能平台部 效果广告组
背景介绍: vivo 在手机浏览器的信息流广告中,为了快速迭代,引入头条 toB 的算法部门,与 vivo 算法团队,进行广告
效果的比稿。在与头条团队 pk 中,将信息流广告效果不到头条 90%迭代到现在 ctr\arpu\广告主价值 97%左右。
信息流广告 CXR 预估
实时模型的推进:生成低延迟样本,模型从天级模型迭代成小时级模型,有效降低预估偏差,提升点击率。
特征工程优化:特征体系的熟悉,并在用户特征和广告特征的交叉上做了很多尝试和优化,挖掘用户兴趣
特征,离在线都取得了收益,并将有效特征推广到其它场景(浏览器推荐页、详情页、短视频、联盟)
模型优化:基于 tf 训练框架,离线尝试用 DIN 和 DeepFM 模型优化推荐页 CTR 模型,在 AUC 和偏差以
及先后验上都拿到了收益。
模型蒸馏:粗排的 CTR\CVR 模型学习精排线上打分,可以迂回学习隐藏的特征,CTR\CVR 多网络的训
练方式,底层 Embedding 共享机制让 CVR 网络也可以从曝光未点击样本中学习信息,扩充样本量,减
少样本偏差问题。
信息流召回框架构建
参与 Vivo 信息流召回框架从无到有,采用 DSSM 模型,pair-wise 的建模方式,基于未曝光数据构建样
本,学习队列的序,正样本为精排模型排序 Top 的 item,负样本在精排\粗排队列根据排序卡点采样;从
数据流的建设,离线评估指标,模型代码开发到上线一致性验证整个流程独立完成,最终上线取得 3 个点
广告主价值收益,在推荐页以及其它场景(详情页、短视频)推全
样本优化:改进负样本采样方式,融合 hard negative 和 easy negative,对热门 item 作负样本时过采
样,新的样本构建方式离在线都取得稳定收益
2018.09-2018.11 DC TCBD 数据挖掘竞赛 小微企业失信预测 冠军
通过分析苏州市几十万家小微企业各方面留下的行为足迹信息,理解企业失信的司法定义,分析数据,构
造基本统计特征、交叉特征、业务特征、规则特征,最终使用(Adaboost、随机森林、LightGBM、XGB
等模型) + LR 的 stacking 模型融合方式进行融合,给出企业失信概率。