猿急送>

北京其它兼职程序员

ID：182678

丽贝卡

人工智能工程师

公司信息：
华宇信息技术有限公司

工作经验：
4年

兼职日薪：
500元/8小时

兼职时间：
可工作日驻场（离职原因）
可工作日驻场（自由职业原因）

所在区域：
北京
朝阳

技术能力

λ 2年机器学习，1年自然语言处理的项目经验，熟练掌握自然语言处理领域的基础理论和方法，如词法分析、信息抽取、文本分类、主题建模、情感分析、词性标注（POS）、机器翻译等nlp基础技术。
λ 理解常用的特征选择和矩阵分解算法，熟悉RNN/GRU等深度学习算法在nlp领域应用
λ 熟练使用Keras、TensorFlow等深度学习开发框架
λ 4年研发工作经验，扎实的编程基础，精通C++/C、python，同时具备SQL、Java/JS、solidity等开发语言的工作经验
λ 熟悉使用版本控制工具（Github），熟悉常用Git命令。
λ 了解常用的数据分析、统计、建模方法，参加过kaggle项目比赛，熟悉机器学习领域的多种模型和应用。
λ 优秀的英文阅读能力以及英文文档撰写能力，能顺利阅读英文专业书籍与开源网站。

项目经验

智能电子卷宗文本分类(2018-2019)
业务需求：本项目针对一特定案由的司法文书数据集，进行文本打标和分类。
λ 针对分类指标划分明确的数据：采用传统机器学习模型进行训练，并结合深度学习模型进行效果对比。包括数据预处理，即针对文书内容进行分词、筛选停止词等操作; 使用tf-idf, word2vec, doc2vec等word embedding方式进行特征工程，生成词向量和文档向量，或者使用fasttext进行直接分类；采用交叉验证方式，使用传统机器学习模型为主，神经网络模型为辅进行模型训练，将数据集进行多分类处理，并且最后进行模型评估。
λ 针对分类指标划分不明的数据：采用LDA主题建模的方式进行文本主题自动生成、自动分类业务模式，解决人工打标不准确的问题。

证据智能分析实体信息提取功能(2018-2019)
业务需求：本服务主要采用命名实体识别（NER）技术，分析证据材料，构建业务词库，提取材料中的重要实体信息，例如：时间，地点，参与人员等，给证据智能分析功能提供支持。
λ 解决词汇的边界问题，主要通过人工标注的方式针对司法专业词汇生成自定义词典，防止专业词汇被切开或者过度聚合；定义规则实现自动化识别。
λ 采用深度学习方法，简化特征工程过程，并结合概率图模型进一步进行隐含状态建模，学习状态序列特点，结合两种模型的优点，提高了实体识别的准确率。
采用HMM、CRF等序列标注的方法，针对司法材料中人员的信息进行提取，识别包括诉讼身份、生日、证件、地址、职务等信息。

机器翻译项目(2018-2019)
λ 将源语言中的文字转换成对应的目标语言中的文字。数据预处理阶段，构建这两种语言分别对应的词表和tokenizer，基于以上工作，将每对对应的文本转化成一一对应的序列向量。
λ 使用深度学习模型进行序列到序列训练，生成机器翻译的初始流程。
λ 针对用encoder对原文进行建模，用decoder生成译文，采用attention机制用于连接原文和译文，实现每一步翻译的时候关注不同的原文信息，提高了准确率。
λ 模型效果验证除了采用交叉验证之外，同时使用了谷歌翻译针对翻译结果进行人工校对。