简单描述
从一个3.5音频线接入声音(电脑或手机的喇叭),串联一个硬件,硬件再通过3.5音频连接喇叭发声,播放声音的同时,通过串口同步输出0~5的数字信号。
需求内容
需要设计的是一种能够分辨语音和对音频进行分析的软件或硬件,作用是分析音频,可以把输入的音频信号(喇叭 3.5音频信号)实时判断出口型。可以理解为动画片配音,当有声音输入的时候,判断是 “张嘴音”,“闭嘴音”,“撅嘴音”还是“咧嘴音” 等口型,并按时序输出结果。我们把人物说话时的口型简化为这4种动作,基本可以满足一般对话嘴部动作需求,不需要语义分析,只是语音,且不能有延迟(<1ms),所以最好不要联网,本地解决。
口型说明:
张嘴音,比如 “啊”,“啦”,“扎”,“他”
撅嘴音,比如 “读”,“我”,“罗”,“国”
咧嘴音,比如 “跨”,“掐”,“斯”,“加”
闭嘴音,比如 “蹦”,“爬”,“破”,“薄”
其中,闭嘴音也经常是其他开口音的前置口型。
目前解决方案思路:
1)现在语音识别系统都采用了模式匹配的原理。录入的语音信号首先经过处理,然后特征提取,用以从语音信号波形中提取一组或几组能够描述语音信号特征的参数。特征提取之后语音特征参数和语音信息与模式库中相应模板之间对比,最匹配的就是识别结果,同步发送识别数据。
2)使用讯飞或其他语音识别板,将采集的语音录制,转文字,再把文字转拼音,按拼音首字母判断口型,然后播放录制的语音,播放时根据语音波形时序发送口型数据。但这个方法会使整个播放声音延迟。
人才要求
有硬件开发经验,有单片机,嵌入式开发经验,有语音识别设备或智能音箱设备开发经验。
参考产品
手机app “活照片”
设备要求
功耗无要求,最好是离线。可以使用第三方设备。识别准确率不低于70%,音频识别延迟<1ms
完成要求
测试样品5台(样品制作费用另算)
完整代码和原理图,电路图,代码要求写清注译,完整说明文档