(1)熟悉常用的LR、FM、GBDT等机器学习算法
(2)熟悉常用的MLP、CNN、RNN、word2vec、doc2vec等深度学习算法
(3)熟练使用tensorflow深度学习平台,有MLP、CNN等深度模型研发、落地实践经验
(4)熟练掌握hadoop、spark等大数据处理工具,处理过亿级别的分布式大数据
(5)精通python、shell等编程语言
(6)熟悉linux开发环境、git代码管理工具
项目一:死链研判系统迭代升级
(1)工作内容:使用深度学习算法提升死链系统研判精度
(2)主要职责:基于深度学习算法textCNN训练文本分类模型,配合工程部署上上线
(3)工作成果:死链系统研判精度提升3个百分点,荣获百度2021-Q3死链业务卓越冲锋奖
项目二:推荐系统召回通路研发
(1)工作内容:基于Embedding技术,实现推荐推荐基于内容和基于用户协同过滤的召回服务
(2)工作职责:基于物品的标题、摘要和关键词等文本数据,使用doc2vec训练物品的语义向量;根据用户行为历史,制定用户向量表达公式;使用faiss近邻搜索工具,实现线上内容和用户协同过滤召回服务
(3)工作成果:推荐系统UV点击率绝对提升5个百分点,项目荣获A+等级评分
项目三:学术论文
已发表2篇推荐系统方向国际学术论文
项目四:专利
已公开发表1项推荐系统方向专利
TextCNN包含四部分:词嵌入、卷积、池化、全连接+softmax,其实结构相比于图像领域简单很多。将卷积神经网络CNN应用到文本分类任务,利用多个不同size的kernel来提取句子中的关键信息(类似于多窗口大小的ngram),从而能够更好地捕捉局部相关性。
基于用户的协同过滤算法通过分析用户间的相似性,给目标用户推荐相似用户感兴趣的物品。doc2vec是一种有效的长短文本embedding技术,通过向量化关键文本信息,结合faiss可实现用户协同过滤的在线服务