λ 2年机器学习,1年自然语言处理的项目经验,熟练掌握自然语言处理领域的基础理论和方法,如词法分析、信息抽取、文本分类、主题建模、情感分析、词性标注(POS)、机器翻译等nlp基础技术。
λ 理解常用的特征选择和矩阵分解算法,熟悉RNN/GRU等深度学习算法在nlp领域应用
λ 熟练使用Keras、TensorFlow等深度学习开发框架
λ 4年研发工作经验,扎实的编程基础,精通C++/C、python,同时具备SQL、Java/JS、solidity等开发语言的工作经验
λ 熟悉使用版本控制工具(Github),熟悉常用Git命令。
λ 了解常用的数据分析、统计、建模方法,参加过kaggle项目比赛,熟悉机器学习领域的多种模型和应用。
λ 优秀的英文阅读能力以及英文文档撰写能力,能顺利阅读英文专业书籍与开源网站。
智能电子卷宗文本分类(2018-2019)
业务需求:本项目针对一特定案由的司法文书数据集,进行文本打标和分类。
λ 针对分类指标划分明确的数据:采用传统机器学习模型进行训练,并结合深度学习模型进行效果对比。包括数据预处理,即针对文书内容进行分词、筛选停止词等操作; 使用tf-idf, word2vec, doc2vec等word embedding方式进行特征工程,生成词向量和文档向量,或者使用fasttext进行直接分类;采用交叉验证方式,使用传统机器学习模型为主,神经网络模型为辅进行模型训练,将数据集进行多分类处理,并且最后进行模型评估。
λ 针对分类指标划分不明的数据:采用LDA主题建模的方式进行文本主题自动生成、自动分类业务模式,解决人工打标不准确的问题。
证据智能分析实体信息提取功能(2018-2019)
业务需求:本服务主要采用命名实体识别(NER)技术,分析证据材料,构建业务词库,提取材料中的重要实体信息,例如:时间,地点,参与人员等,给证据智能分析功能提供支持。
λ 解决词汇的边界问题,主要通过人工标注的方式针对司法专业词汇生成自定义词典,防止专业词汇被切开或者过度聚合;定义规则实现自动化识别。
λ 采用深度学习方法,简化特征工程过程,并结合概率图模型进一步进行隐含状态建模,学习状态序列特点,结合两种模型的优点,提高了实体识别的准确率。
采用HMM、CRF等序列标注的方法,针对司法材料中人员的信息进行提取,识别包括诉讼身份、生日、证件、地址、职务等信息。
机器翻译项目(2018-2019)
λ 将源语言中的文字转换成对应的目标语言中的文字。数据预处理阶段,构建这两种语言分别对应的词表和tokenizer,基于以上工作,将每对对应的文本转化成一一对应的序列向量。
λ 使用深度学习模型进行序列到序列训练,生成机器翻译的初始流程。
λ 针对用encoder对原文进行建模,用decoder生成译文,采用attention机制用于连接原文和译文,实现每一步翻译的时候关注不同的原文信息,提高了准确率。
λ 模型效果验证除了采用交叉验证之外,同时使用了谷歌翻译针对翻译结果进行人工校对。