1、熟悉kaldi、funasr、wenet等语音识别相关的框架;
2、熟悉vits、gpt-sovits等语音合成框架;
3、常用的代码语言:python、C++;
4、有大模型qwen2微调的相关经验;
语音合成训练微调:
语音合成训练微调是一种技术,它允许在预训练的语音合成模型基础上,使用特定说话人的数据进行进一步训练,以生成具有特定声音特征的语音。
KAIDI 语音评测:
基于KAIDI实现英语准确度、流利度等的评分,来评估发音质量。实现音频传输完成后立即返回评测结果,提高实时性。
实时数字人:
实时数字人技术是指能够实时响应用户输入,并以数字人形态进行交互的技术。它通常涉及到语音识别、大模型对话、语音合成、唇形同步等多个技术领域。