自动语音匹配不是自动语音识别,它是比较两个语音音频信号并返回这两个音频信号匹配的百分比。
这种技术通常会像这样的场景一样使用:
2.我们可以从上面从单个单词延伸到句子。那么如何匹配这些音频信号?
这里的问题是为ASM寻找一些好的开源或商业解决方案。
还是针对这些实际需求的其他任何好的解决方案?
提前致谢!
答案 0 :(得分:2)
与模板的比较不会带来任何好处,因为它实际上不会暗示错误说出的内容。良好的发音学习框架与模板不匹配,但声学模型代表正确和错误的发音。通过这种方式,它可以检测学习者所做的语音错误。你可以阅读
SRI EduSpeakTM系统:识别和发音评分 http://www.speech.sri.com/people/hef/papers/EduSpeak.ps
要在iPhone上实现此算法,您可以检查