我正在探索SpeechRecognitionEngine
的功能,我的最终目标是输入WAV文件和该WAV文件的转录,并在开头的WAV文件中输出位置(理想情况下,每个单词的结尾。
我可以让引擎成功识别这个短语,但我无法理解如何在单词开始时检索音频位置,而不是在识别被识别或识别时等等。
如果你很好奇这是什么意思,那就是自动化嘴唇同步动画工作流程。
感谢您的时间。
答案 0 :(得分:2)
正确的音频到文本对齐是一项需要与语音识别不同的特定算法的任务。您可以使用ASR引擎模拟一些对齐功能,但它可以正常工作。
对于对齐算法的实现,您可以检查CMUSphinx语音识别工具包:
http://cmusphinx.sourceforge.net/?s=long+audio+alignment
http://www.bluevincent.com/2011/02/speech-to-text-using-java.html
或者您可以尝试像Nexiwave那样的商业公司服务
http://nexiwave.com/index.php/applications/transcription-timestamping