Question

我想知道您是否可以帮助建议aubio（或任何其他类似服务）是否适合我们的业务。可悲的是，我不是开发人员或音响工程师所以请原谅我的无知......但任何反馈都会非常感激！

目前我们采用音频文件，例如1小时的会议录音，并将其切换为较短的音频部分。问题在于解剖音频的残酷方式;如果我们将一个60分钟的文件分成5分钟的部分，每隔5分钟就可能会将一个单词或一个句子切成两半，导致质量下降，因为听众无法破译半字/句子。

我可以看到aubio网站将其功能列为“在每次攻击之前对声音文件进行分段”。我想知道是否可以使用aubio或类似功能来帮助我们更好地分割音频文件？我们希望能够在间隙或语音暂停期间切片/标记音频文件而不是中间的单词。

非常感谢任何建议。

亲切的问候汤姆

Answer 1

用于检测静音的算法称为＃34;语音活动检测＆＃34;如果您在Google中搜索，您可以在许多编程语言中找到许多从简单到高级的实现。例如，您可以从http://cmusphinx.sourceforge.net下载sphinxbase库，并使用嵌入式工具sphinx_cont_fileseg来分块上的文件：

   sphinx_cont_fileseg -i file.wav -w

还有其他实现。据我所知，虽然你可以使用aubio类构建它，但是aubio并没有内置VAD。 Aubio似乎更多地针对音乐分析，而不是语音，并且没有包含VAD实现。

一旦你发现沉默，你可以削减它，这是一个微不足道的部分来实现。寻找开发者是值得的。

如何在间隙或语音暂停期间切片/标记音频文件？ Aubio？

1 个答案: