主要背景:应用于金融信审,获客与贷后等等场景下多轮无障碍机器人与用户语音对话。
主要内容:
参与并主导整个机器人语料,训练,预测等等平台与算法设计以及研发工作,算法开发框架tensorflow,keras,带领算法团队成员,研发的算法如下:
1.语音识别:有 vad ,声学前端采用将声音转为傅里叶变换的 mfsc 频谱图,识别模型为自主研发神经网络结构,包含残差结构,空洞卷积,ctc (不详说),该结构对真实口语化和噪声较大情况识别准确率高,语言模型为 transformer 算法。
2.语音合成:采用 tacotron2+wavernn 训练,并实现少量样本的语音合成及风格迁移。
3.意图识别(NLU):主要采用内部数据训练的 bert 经蒸馏后模型,模型压缩后速度能达到 ms级,模型小,识别速度快,适应线上。
4.情感计算:采用 gmlp 蒸馏训练,监控用户发生极端情绪后,采取人工快速介入安抚。
5.分布式多机多卡训练:采用100+ gpu 卡对大量语音语料进行分布式多机多卡训练。
6.其他NLP算法如:gpt的文本生成,bert+pagerank文本摘要,bert+crf实体识别,文本纠错,投诉倾向识别,知识图谱,关键词提取等等算法都有,就不一一赘叙。
上述算法,本人除为算法团队主要算法规划与设计人员以及团队负责人外,也是主要开发人员。