精通Python,熟悉Java,C,C++等开发语言
熟悉前沿语言模型 Transformer、RNN、LSTM、CNN、 ERNIE、 BERT 、GPT2、fasttext, word2vec等
了解
熟悉语音合成 Tactotron2 , FastSpeech 等声学模型; WaveNet , Hi FiGan 等声码器; v its 等端到端的语音合成
智能数字分身平台 -- 语音合成、语音克隆 2022.11 – 2024.03
在智能数字分身平台中 ,合成清晰自然的语音;语音驱动数字人唇形 ,打造数字分身 ,生成数字播报
1、利用 Fastspeech 的声学模型和 HIFiGAN 的声码器构建中英混合的多音色语音合成模型;
2、特定音色的复制 ,利用少量样本实现音色的快速克隆;
3、添加韵律模型 ,生成更具节奏 ,更具韵律的语音。
智能数字分身平台 -- 文本摘要 2022.09 – 2022.11
通过抽取式和生成式模型输出简短摘要 ,为数字分身实现数字播报提供数据来源
1、对于抽取式文本摘要 ,采用 bert + 空洞卷积 进行网络建模;
2、生成式摘要 ,以 bert 进行文本词嵌入 ,Transform Encoder-Decoder ,作为模型架构;
将抽取式模型抽取摘要作为生成式模型的指导句 , 引导生成生成式摘要。
股票问答系统 2022.06 - 2022.08
对用户输入的文本数据进行文本归一化 ,推理用户意图的 sql 语句 ,返回查询结果
1、利用 BERT+LSTM 构建多任务网络模型 ,负责模型训练、验证与上线;
2、通过规则匹配 ,将模型各任务的输出组成 sql 语句。
基于知识图谱的问答系统 2022.03 –2022.6
通过医药相关的关系数据 ,构建网络图谱 ,打造医药垂直领域的问答系统
1、分析实体类型与实体关系 ,构建知识图谱;
2、负责指称模型的训练与预测。通过 n-gram 匹配所有指称 ,采用 bert 模型网络建模筛选 ,实现精准(匹配-判断)
指称识别;利用 bert+CRF 的序列标注方法 ,进行模糊的指称识别;
3、负责实体识别模型的训练与预测。 通过倒排索引 ,进行指称-实体的匹配 , bert 模型实现实体识别;
4、负责完成问答系统的推理过程 ,以及部署上线。
语音合成(TTS)技术,将文本转化为自然流畅、情感丰富、高度拟人化的语音,支持多语种、多方言,现已具备几十种音色并支持个性化定制,满足各类场景对文本朗读的需求
精准提取快递填单文本中的姓名、电话、地址信息,通过自然语言处理辅助地址识别,生成标准规范的结构化信息,大幅提升企业效率