应用错误收集

使用Sphinx识别短语中口语单词的开始/停止时间

时间：2014-12-01 16:58:54

标签： cmusphinx pocketsphinx

我正在尝试识别短语中单个单词的开始/结束时间。我有一个短语的WAV文件和话语的文本。

是否有智能方法将这两个数据（音频，文本）组合在一起以提高Sphinx的识别能力？我想输出的是短语中每个单词的准确开始/停止时间。

（我知道你可以将-time yes传递给pocketsphinx以获取我正在寻找的时间数据 - 但是，语音识别本身并不是非常准确。）

解决方案不能用于特定的发言人，因为我正在使用的语料库包含许多不同的发言者，尽管他们都使用美国英语。

1 个答案:

答案 0 :(得分：0)

我们有一个特定的工具 - sphinx4中的音频对齐器。你可以检查

http://cmusphinx.sourceforge.net/2014/07/long-audio-aligner-landed-in-trunk/