1. 熟练使用 keras,tensorfolow,paddle,pytorch, 掌握分布式 TensorFlow 程序编写及部署
2. 熟练掌握 python , java 和 Scala (开发过 spark 项目)
3. 熟悉自然语言处理常用方法中文分词, 词向量, 句向量, 文本分类, 文本生成, 语义相似度计算
4. 熟悉常用的神经网络结构, 如 CNN, RNN, LSTM, GRU,GAN 等
5. 掌握 Ltp , Standford NLP , NLTK, hanlp 等 nlp 系列处理框架
6. 熟悉常用模型方法及架构 seq2seq,attention,transformer, elmo,gpt,bert 及其变体
7. 熟悉 Hadoop 生态圈相关技术, 如 spark, Hbase, Hive, Zookeeper, Sqoop 等
8. 对推荐系统有一定的研究,了解协同过滤, 矩阵分解, FM, deep_FM, xdeep_FM 等相关算法
资讯文本分类: 对58本地版资讯,58部落等资讯内容和招聘求职贴各内容进行分类,打标签,用于下游推荐和分发;
对接产品需求,根据分类需求,给出调研方案,数据标注方案及待标注数据集
整理数据集,挖掘相关特征
调试相关模型,融合特征(模型多采用bert,wwm,多模态等),调试参数,到达理想效果,行业标签49 分
类模型acc 83.76%, 行业一级分类acc 96.9%
模型上线,提供调用接口
资讯文本信息抽取: 对58本地版资讯,58部落等资讯内容和招聘求职贴各内容地域信息提取;
文本分词处理,关键词字典生成
整理信息提取策略,开发提取,消歧,匹配
训练全国模型,扩充地域提取策略,算法精准率93%,召回率88%
模型上线,提供调用接口
特征平台开发: 58本地版特征中台,方便各位算法同事抽取特征,处理特征,提升开发效率;
特征平台方案调研讨论整理
基础框架代码开发,离线统计特征处理,实时统计特征处理
相关特征生成,如文本embedding,ner,tf_idf等
离线特征和实时特征整合入库
资讯文本分类: 对58本地版资讯,58部落等资讯内容和招聘求职贴各内容进行分类,打标签,用于下游推荐和分发; 对接产品需求,根据分类需求,给出调研方案,数据标注方案及待标注数据集 整理数据集,挖掘相关特征 调试相关模型,融合特征(模型多采用bert,wwm,多模态等),调试
资讯文本分类: 对58本地版资讯,58部落等资讯内容和招聘求职贴各内容进行分类,打标签,用于下游推荐和分发; 对接产品需求,根据分类需求,给出调研方案,数据标注方案及待标注数据集 整理数据集,挖掘相关特征 调试相关模型,融合特征(模型多采用bert,wwm,多模态等),调试
资讯文本信息抽取: 对58本地版资讯,58部落等资讯内容和招聘求职贴各内容地域信息提取; 文本分词处理,关键词字典生成 整理信息提取策略,开发提取,消歧,匹配 训练全国模型,扩充地域提取策略,算法精准率93%,召回率88% 模型上线,提供调用接口