应用错误收集

在语音识别领域已经取得了许多进步。最近的系统仅识别一小部分音频（4-10秒），这些音频被认为是完整的句子。这对培训很有用，但对于制作时却无济于事，尽管我们可能会得到一个较长的音频文件（例如1小时），并且我们希望对其应用ASR。

典型的方法是应用语音分离器（如py-webrtcvad）来分离音频。但是，

1）声音可能会在说得很慢的单词中间破裂

2）发言者的发言速度可能非常快，因此将给您1-2分钟的时间。就像所说的那样，不能处理那么长的块（只有4到10秒是可以的）。

如何为语音识别拆分音频？有什么工具吗？