如何在间隙或语音暂停期间切片/标记音频文件? Aubio?

时间:2014-07-14 10:26:38

标签: speech-recognition audio-recording aubio

我想知道您是否可以帮助建议aubio(或任何其他类似服务)是否适合我们的业务。可悲的是,我不是开发人员或音响工程师所以请原谅我的无知......但任何反馈都会非常感激!

目前我们采用音频文件,例如1小时的会议录音,并将其切换为较短的音频部分。问题在于解剖音频的残酷方式;如果我们将一个60分钟的文件分成5分钟的部分,每隔5分钟就可能会将一个单词或一个句子切成两半,导致质量下降,因为听众无法破译半字/句子。

我可以看到aubio网站将其功能列为“在每次攻击之前对声音文件进行分段”。我想知道是否可以使用aubio或类似功能来帮助我们更好地分割音频文件?我们希望能够在间隙或语音暂停期间切片/标记音频文件而不是中间的单词。

非常感谢任何建议。

亲切的问候 汤姆

1 个答案:

答案 0 :(得分:2)

用于检测静音的算法称为#34;语音活动检测"如果您在Google中搜索,您可以在许多编程语言中找到许多从简单到高级的实现。例如,您可以从http://cmusphinx.sourceforge.net下载sphinxbase库,并使用嵌入式工具sphinx_cont_fileseg来分块上的文件:

   sphinx_cont_fileseg -i file.wav -w

还有其他实现。据我所知,虽然你可以使用aubio类构建它,但是aubio并没有内置VAD。 Aubio似乎更多地针对音乐分析,而不是语音,并且没有包含VAD实现。

一旦你发现沉默,你可以削减它,这是一个微不足道的部分来实现。寻找开发者是值得的。