在语音识别领域已经取得了许多进步。最近的系统仅识别一小部分音频(4-10秒),这些音频被认为是完整的句子。这对培训很有用,但对于制作时却无济于事,尽管我们可能会得到一个较长的音频文件(例如1小时),并且我们希望对其应用ASR。
典型的方法是应用语音分离器(如py-webrtcvad
)来分离音频。但是,
1)声音可能会在说得很慢的单词中间破裂
2)发言者的发言速度可能非常快,因此将给您1-2分钟的时间。就像所说的那样,不能处理那么长的块(只有4到10秒是可以的)。
如何为语音识别拆分音频?有什么工具吗?