ID:284857

Adil

算法工程师

  • 公司信息:
  • 上海国音智能科技有限公司
  • 工作经验:
  • 1年
  • 兼职日薪:
  • 1200元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 所在区域:
  • 上海
  • 浦东

技术能力

信息与通信工程专业,研究生学历,从事包括但不限于语音识别,自然语言处理相关的工作(算法工程师),base在上海。熟练使用python/shell/C编程语言以及kaldi、espnet、wenet、huggingface、wav2vec等语音识别平台。熟悉pytorch框架,熟悉DNN、RNN、Transformer、Conformer、BERT等神经网络模型。k-means,EM等分类算法。能够在各个语音识别平台上做数据预处理,特征提取,语言模型建立,声学模型建立以及模型解码和测试,优化等工作。能够运用transformer,bert等神经网络模型做实体识别,分类以及机器翻译相关的项目。能够做大数据处理,数据爬取,统计,分类等。

项目经验

小语种语音识别标点符号恢复 :数据处理与词典生成: 用词汇量达70万的语言模型生成词典(word-num), 用bpe算法在6.5GB文本数据上训练bpe模型和词典(subword=1000, subword-num), 此外,以上两个词典中加入,MASK, PAD, SEP, CLS和四个常用的标点符号(period, comma, exclamation, question mark)。建立基于transformer的分类模型: 分别建立建模单元为word和subword的transformer分类模型,模型以transformer的encoder部分组成,12层网络,输入为词向量和位置向量,class为4(period, comma, exclamation, question mark)。两种模型中subword为建模单元的模型在测试数据集上的F1 score 相对比较好,但还是没到预期其中句号和逗号的recall相对稳定,其余两个类的效果较差。(多线程)训练基于BERT的预训练模型以及微调(多线程): 由于基于transformer的分类模型没学到语义信息,建立了基于BERT的预训练模型并在它的基础上进行finetune, 目前在优化当中。
小语种语音识别:建立测试集_指定方案: 为推进维语ASR,需建立验证模型性能的测试集,根据现有的数据资源以及我们所具备的条件,以场景,语音内容,环境,口音/方言等要素作为建立指标,给出了详细的方案。
数据预处理: 音频数据处理和文本数据清洗脚本,其功能包括音频数据的切割(vad),合并,文本数据的转换,文本中数字的转
换,长句转短句,清理噪点等。数据生成: 完成调用谷歌翻译接口生成维语文本的脚本,生成7.5万条txt文件(总数据大小为460MB)。调用公司现有的tts系统分两批共生成了100小时左右的asr训练数据,并加到现有的训练数据里。建立训练数据集和测试集: 用文本处理脚本共建立了四个维语文本数据集,数据大小为6.5GB。用音频处理脚本共建立了3个测
试集,分别是带噪访谈,干净访谈,新闻以及其reference,时长为5小时。模型建立与优化: 用处理好的文本训练数据(四个文本数据集),前后建立了共15个符合业务需求的语言模型,平滑,插值等优化方式,最终生成了词汇量高达70万的4-gram语言模型,在对应的测试集上模型的困惑度(ppl)在190左右,未登录词(oov)降到最低(对于15个语言模型),并在ASR解码时生成其对应的TLG。声学模型建立: 在已有的156小时维语ASR数据上分别加入第一批50个小时tts数据和第二批55小时tts数据,训练char,bpe为建模单元的声学模型(conformer),用 ctc_greedy search,prefix beam search,attention rescore算法解码,端到端模型解码部分加入n-gram语言模型,对实验结果进行分析,加入编辑距离算法第二次打分,提升效果,将模型转成onnx形式输出给引擎。
基于多任务(MTL)学习的低资源语言语音识别系统:针对端到端语音识别模型(在低资源语言上)性能较低进行研究,先收集数据建设数据库,在kaldi, espnet上构建语音识别基线系统(GMM/DNN-HMM, CTC,Attention 以及混合CTC-Attention),在测试数据上进行对比试验,从实验结果中可以看出来,端到端模型对实验数据的依赖比传统模型较为明显,端到端模型解码时引入语言模型能够得出较好的测试结果。
基于 DNN-HMM 和 RNN 的语音识别系统 : 熟悉与搭建kaldi语音识别平台,学习shell脚本并对数据集进行数据预处理,对音频进行特征提取,生成解码网络HCLG.fst, 建立基于GMM/DNN-HMM的语音识别系统,训练RNN语言模型并在解码时与N-gram语言模型切换,引入区分性训练(discriminative training),进行对比实验.

案例展示

  • 端到端语音识别系统

    端到端语音识别系统

    根据业务需求,输出符合业务需求的语音识别模型(通常包括声学模型和语言模型)。在这个项目中我负责整个过程,包括但不限于数据预处理,声学模型训练,语言模型训练,模型优化,测试验证模型性能,模型转换(pytorch转onnx)。

  • 语音识别标点符号恢复

    语音识别标点符号恢复

    语音识别系统做完之后,紧接着对识别结果进行规范化,恢复标点符号,能够让识别的结果更加自然。整个项目由本人负责,前后训练了基于transformer的分类模型和基于BERT的恢复模型。整个项目包括:数据处理,模型建立,训练,解码,优化以及模型输出。

查看案例列表(含更多 0 个案例)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    1
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服