熟练使用Hive和SQL,以及常见数据分析工具pandas和numpy,常见机器学习开源算法包如sklearn,Gensim 能够熟练应用
熟练使用常用机器学习(LR,LDA,GBDT,RF,CRF,ATTENTION,CNN,RNN等)和数据挖掘(TFIDF,spectral cluster,k-means,page rank)算法模型,以及优化方法原理,掌握常用强化学习和GAN方法
熟练掌握并运用tensorflow进行模型开发与调优,了解TF 分布式的架构和原理,对parameter server有过一定研究和理解,对spring框架和neo4j数据库有过一定应用和研究,能够熟练开发GRPC服务和web服务
1.设计并实现资讯分类项目,采用层次聚类算法归纳出新闻库的类别体系 ,训练主题模型分类
2.基于Transformer 编码解码的seq2seq模型实现类似小冰机器人寒暄对话模型,加入命名实体和敏感信息识别使得寒暄问答效果有不错表现
3.FAQ自动问答模型实现,通过对模型调参优化和bert 中文预训练模型使得系统百科问答系统精确率和召回率有了大幅度提升
4.使用离散特征切分和连续特征滑动分箱技术对车型数据预处理实现相似车任务,基于车检信息决策优质车合格车或者放弃车的车况检测
资讯舆情监控项目,采用层次聚类算法归纳出新闻类别体系,关键词策略过滤银行相关资讯,使用多模式匹配命名实体主题模型提特征,实现了资讯地名,热度,类别,情感等标签体系建设
使用深度学习模型结构学习语义匹配问答,融合了模型score特征 & 数字特征 & 字符串特征 & 关键词 & 命名实体的逻辑回归模型优化FAQ BOT,基本解决了关键信息不一致模型score过高问题