我在找到如何执行看似简单容易的任务时遇到了一些麻烦:
鉴于音频流,您如何实时计算已发言的字数?
我不需要识别这些词是什么,而只是对已经发出的词语进行准确的反击。计数器不必太精确,甚至可以考虑话语和咳嗽等其他“咕噜声”。
似乎所有语音识别系统都依赖于预先定义的语法,然后才能分析所说的音素,以便在一定程度上准确地转换为已知单词。但我根本不在乎准确性,而在于说话的速度。
重要的是,它实时运行,并允许系统在说出一定数量的单词后提供警报。系统将鼓励视觉提示暂停,然后发言人可以继续。
我查看了CMU Sphinx常见问题解答,发现“单词识别”的概念尚未得到支持。我真的不需要对特定单词进行实时搜索,但它与我正在寻找的内容更接近。在波形中寻找非常小的静音似乎是一种非常粗暴的方式,并且可能根本不是很准确,但这就是我现在所拥有的。
有关算法,研究论文或任何其他见解的任何指示都将不胜感激!