应用错误收集

我在找到如何执行看似简单容易的任务时遇到了一些麻烦：

鉴于音频流，您如何实时计算已发言的字数？

我不需要识别这些词是什么，而只是对已经发出的词语进行准确的反击。计数器不必太精确，甚至可以考虑话语和咳嗽等其他“咕噜声”。

似乎所有语音识别系统都依赖于预先定义的语法，然后才能分析所说的音素，以便在一定程度上准确地转换为已知单词。但我根本不在乎准确性，而在于说话的速度。

重要的是，它实时运行，并允许系统在说出一定数量的单词后提供警报。系统将鼓励视觉提示暂停，然后发言人可以继续。

我查看了CMU Sphinx常见问题解答，发现“单词识别”的概念尚未得到支持。我真的不需要对特定单词进行实时搜索，但它与我正在寻找的内容更接近。在波形中寻找非常小的静音似乎是一种非常粗暴的方式，并且可能根本不是很准确，但这就是我现在所拥有的。

有关算法，研究论文或任何其他见解的任何指示都将不胜感激！