使用Python + pydub在边缘检测语音与非语音

时间:2019-02-19 21:52:01

标签: python audio pydub

我有很多音频文件,它们有些嘈杂并且彼此之间并不完全平行(不同的声音,不同级别的背景噪音)。

我想计算不是人类语音的每个录音的开始和结束的时间长度。也就是说,每个录音的形状为:<0:噪音,1:语音,2:噪音>,我希望持续时间为0和2。

我编写了一个脚本,该脚本通过以可变dbFS阈值从文件的开头和结尾进行搜索来或多或少地执行我想要的操作,但是在某些情况下,它找不到合适的值。可能是因为文件太嘈杂是不可能的,但是也许有比我已经实现的方法更好的方法(例如,除了要查看的体积以外,还有一些更聪明的算法)。

https://gist.github.com/moui72/6f537928b04443fba9ca575573488263

如果有人对如何提高我的精度和/或从更大比例的嘈杂文件中获取建议有意见,我将不胜感激。

注意:我根据Alec对measure length of silence at beginning of audio file (wav)

的回复编写了脚本

0 个答案:

没有答案