我想知道您是否可以帮助建议aubio(或任何其他类似服务)是否适合我们的业务。可悲的是,我不是开发人员或音响工程师所以请原谅我的无知......但任何反馈都会非常感激!
目前我们采用音频文件,例如1小时的会议录音,并将其切换为较短的音频部分。问题在于解剖音频的残酷方式;如果我们将一个60分钟的文件分成5分钟的部分,每隔5分钟就可能会将一个单词或一个句子切成两半,导致质量下降,因为听众无法破译半字/句子。
我可以看到aubio网站将其功能列为“在每次攻击之前对声音文件进行分段”。我想知道是否可以使用aubio或类似功能来帮助我们更好地分割音频文件?我们希望能够在间隙或语音暂停期间切片/标记音频文件而不是中间的单词。
非常感谢任何建议。
亲切的问候 汤姆
答案 0 :(得分:2)
用于检测静音的算法称为#34;语音活动检测"如果您在Google中搜索,您可以在许多编程语言中找到许多从简单到高级的实现。例如,您可以从http://cmusphinx.sourceforge.net下载sphinxbase库,并使用嵌入式工具sphinx_cont_fileseg来分块上的文件:
sphinx_cont_fileseg -i file.wav -w
还有其他实现。据我所知,虽然你可以使用aubio类构建它,但是aubio并没有内置VAD。 Aubio似乎更多地针对音乐分析,而不是语音,并且没有包含VAD实现。
一旦你发现沉默,你可以削减它,这是一个微不足道的部分来实现。寻找开发者是值得的。