分割音频文件以进行句子语音识别

时间:2019-01-24 12:20:18

标签: python speech-recognition

在语音识别领域已经取得了许多进步。最近的系统仅识别一小部分音频(4-10秒),这些音频被认为是完整的句子。这对培训很有用,但对于制作时却无济于事,尽管我们可能会得到一个较长的音频文件(例如1小时),并且我们希望对其应用ASR。

典型的方法是应用语音分离器(如py-webrtcvad)来分离音频。但是,

1)声音可能会在说得很慢的单词中间破裂

2)发言者的发言速度可能非常快,因此将给您1-2分钟的时间。就像所说的那样,不能处理那么长的块(只有4到10秒是可以的)。

如何为语音识别拆分音频?有什么工具吗?

0 个答案:

没有答案