我想将语音录制与已知文本同步。是否有语音到文本/自然语言处理库可以促进这一点?我想我想要检测单词边界并从字典中计算候选匹配。我在SO上发现的大部分问题都与书面语有关。
期望,但不是必需的:
编辑:我意识到这是一个非常宽泛,甚至是天真的问题,所以提前感谢您的指导。
到目前为止我发现了什么:
答案 0 :(得分:10)
强制对齐
听起来您想要在音频和已知文字之间执行 forced alignment 。
几乎所有的研究/行业级语音识别系统都能够做到这一点,因为强制对齐是培训识别系统的重要部分,这些数据在音频和音频之间没有phone级别对齐。成绩单。
对齐CMUSphinx
CMU的Sphinx4-1.0 beta 5 release开源语音识别系统现在包含一个关于如何在成绩单和长语音录音之间进行对齐的演示。