绘图中的音频文件长度不正确,以及python中audioplot上的注释段不正确覆盖

时间:2017-12-15 05:48:55

标签: python audio plot audio-processing

我正在学习本教程(https://github.com/amsehili/audio-segmentation-by-classification-tutorial/blob/master/multiclass_audio_segmentation.ipynb)并尝试使用我自己的训练数据和样本重新创建可视化输出。

我的音频文件长31秒
https://www.dropbox.com/s/qae2u5dnnp678my/test_hold.wav?dl=0
注释文件在这里:
https://www.dropbox.com/s/gm9uu1rjettm3qr/hold.lst?dl=0
https://www.dropbox.com/s/b6z1gt8i63c8ted/tring.lst?dl=0
我试图在python中绘制音频文件波形,然后突出显示" hold"和" tring"来自该波形顶部的注释文件的音频。

来自大胆的波形如下:enter image description here

代码如下:

"Traceback (most recent call last):
  File "/Users/Hamish/Desktop/Python/AWBM/Import.py", line 13, in <module>
    rain_column = float(row[7])
IndexError: list index out of range"

上述代码生成的图是:enter image description here

正如你所看到的,情节似乎认为该文件长达90秒,实际上它只有31秒长。此外,注释段被错误地覆盖/突出显示。

我做错了什么,我该如何解决?

PS:在波形中,矩形块是&#34; tring&#34;剩下的四个&#34;梯形&#34;波形是保持音乐的区域。

1 个答案:

答案 0 :(得分:2)

这里只是猜测。 audacity屏幕截图显示了44100的采样率。您的代码片段的SAMPLE_RATE变量初始化为16000.如果您将原始的31秒乘以两个速率之间的比率,则为31 * 44100/16000 = 85.44秒。