1、熟悉聚类、分类、回归等机器学习算法实现,对常见的核心算法理解透彻,有实际建模经验;
2、具有扎实的数据结构等编程基础,熟悉Python、bash脚本;熟练操作Linux系统;
3、熟练掌握Java语言,看过Java集合类源码;熟练应用MySQL、MongoDB;
4、掌握深度学习算法,CNN/RNN/LSTM/Seq2Seq,熟悉Tensorflow框架;
5、熟悉中文分词、文本聚类、文本分类、NER、HMM、CRF等NLP 相关算法;
6、有对话系统、意图识别、槽值抽取、对话状态管理、知识图谱项目经验;
7、对推荐系统有过一定的研究,掌握常用的推荐算法;
8、有一定的工程能力、熟悉SpringMVC、SpringBoot、Shiro、MyBatis。
2018.04-2018.08 知了图谱项目
职责:负责公司通讯录图谱、公司出差酒店图谱的构建,底层用MongoDB存储;公司通讯录的数据源需要对
接公司OA,定时更新。当问答系统的意图识别用户的question是图谱类意图时,需要对question进行NLU,
抽取相关字段到数据库中查询。NLU中包括纠错模块和图谱中精确意图识别和槽值抽取。
2016.9-2016.12 贵阳大数据数据挖掘模块
职责:负责数据挖掘模块的新闻主题分类和文本主题挖掘。新闻主题分类的数据集主要是用搜狗新闻语聊,前
期主要对数据做了预处理,预处理之后分别用了几种经典的分类算法,如SVM、决策树、朴素贝叶斯和
Fasttext,最终使用的是分类效果比较好的Fasttext;主题模型主要是用了LDA。
2015.5-2015.7 阿里巴巴资金流入流出预测
职 责:数据的预处理、特征提取、模型训练的工作 项目背景:比赛是建立在真实的业务场景了,在初赛阶段
有2.8万个(复赛是10万)用户从2013.7 到2014.8每天每个人的余额宝资金流入流出情况,预测2014.9月30天
的流入流出金额。
过程分析: 1、对所给的数据进行预处理,实现过程是在MySql数据库中建表,为了加快处理速度对 表进行分
区以及建立索引和写存储过程。 2、用python的插件画了大量的图表进行数据分析。 3、经过深入分析发现数
据大致规律,接着提取特征、划分训练数据集和测试集。 4、最终使用随机森林训练模型,调整参数。