我正在尝试识别短语中单个单词的开始/结束时间。我有一个短语的WAV文件和话语的文本。
是否有智能方法将这两个数据(音频,文本)组合在一起以提高Sphinx的识别能力?我想输出的是短语中每个单词的准确开始/停止时间。
(我知道你可以将-time yes
传递给pocketsphinx以获取我正在寻找的时间数据 - 但是,语音识别本身并不是非常准确。)
解决方案不能用于特定的发言人,因为我正在使用的语料库包含许多不同的发言者,尽管他们都使用美国英语。
答案 0 :(得分:0)
我们有一个特定的工具 - sphinx4中的音频对齐器。你可以检查
http://cmusphinx.sourceforge.net/2014/07/long-audio-aligner-landed-in-trunk/