ID:182678

丽贝卡

人工智能工程师

  • 公司信息:
  • 华宇信息技术有限公司
  • 工作经验:
  • 4年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 可工作日驻场(离职原因)
  • 可工作日驻场(自由职业原因)
  • 所在区域:
  • 北京
  • 朝阳

技术能力

λ 2年机器学习,1年自然语言处理的项目经验,熟练掌握自然语言处理领域的基础理论和方法,如词法分析、信息抽取、文本分类、主题建模、情感分析、词性标注(POS)、机器翻译等nlp基础技术。
λ 理解常用的特征选择和矩阵分解算法,熟悉RNN/GRU等深度学习算法在nlp领域应用
λ 熟练使用Keras、TensorFlow等深度学习开发框架
λ 4年研发工作经验,扎实的编程基础,精通C++/C、python,同时具备SQL、Java/JS、solidity等开发语言的工作经验
λ 熟悉使用版本控制工具(Github),熟悉常用Git命令。
λ 了解常用的数据分析、统计、建模方法,参加过kaggle项目比赛,熟悉机器学习领域的多种模型和应用。
λ 优秀的英文阅读能力以及英文文档撰写能力,能顺利阅读英文专业书籍与开源网站。

项目经验

智能电子卷宗文本分类(2018-2019)
业务需求:本项目针对一特定案由的司法文书数据集,进行文本打标和分类。
λ 针对分类指标划分明确的数据:采用传统机器学习模型进行训练,并结合深度学习模型进行效果对比。包括数据预处理,即针对文书内容进行分词、筛选停止词等操作; 使用tf-idf, word2vec, doc2vec等word embedding方式进行特征工程,生成词向量和文档向量,或者使用fasttext进行直接分类;采用交叉验证方式,使用传统机器学习模型为主,神经网络模型为辅进行模型训练,将数据集进行多分类处理,并且最后进行模型评估。
λ 针对分类指标划分不明的数据:采用LDA主题建模的方式进行文本主题自动生成、自动分类业务模式,解决人工打标不准确的问题。

证据智能分析实体信息提取功能(2018-2019)
业务需求:本服务主要采用命名实体识别(NER)技术,分析证据材料,构建业务词库,提取材料中的重要实体信息,例如:时间,地点,参与人员等,给证据智能分析功能提供支持。
λ 解决词汇的边界问题,主要通过人工标注的方式针对司法专业词汇生成自定义词典,防止专业词汇被切开或者过度聚合;定义规则实现自动化识别。
λ 采用深度学习方法,简化特征工程过程,并结合概率图模型进一步进行隐含状态建模,学习状态序列特点,结合两种模型的优点,提高了实体识别的准确率。
采用HMM、CRF等序列标注的方法,针对司法材料中人员的信息进行提取,识别包括诉讼身份、生日、证件、地址、职务等信息。

机器翻译项目(2018-2019)
λ 将源语言中的文字转换成对应的目标语言中的文字。数据预处理阶段,构建这两种语言分别对应的词表和tokenizer,基于以上工作,将每对对应的文本转化成一一对应的序列向量。
λ 使用深度学习模型进行序列到序列训练,生成机器翻译的初始流程。
λ 针对用encoder对原文进行建模,用decoder生成译文,采用attention机制用于连接原文和译文,实现每一步翻译的时候关注不同的原文信息,提高了准确率。
λ 模型效果验证除了采用交叉验证之外,同时使用了谷歌翻译针对翻译结果进行人工校对。

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    2
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服