Question

我正在学习本教程（https://github.com/amsehili/audio-segmentation-by-classification-tutorial/blob/master/multiclass_audio_segmentation.ipynb）并尝试使用我自己的训练数据和样本重新创建可视化输出。

我的音频文件长31秒
：https://www.dropbox.com/s/qae2u5dnnp678my/test_hold.wav?dl=0
注释文件在这里：
https://www.dropbox.com/s/gm9uu1rjettm3qr/hold.lst?dl=0
https://www.dropbox.com/s/b6z1gt8i63c8ted/tring.lst?dl=0
我试图在python中绘制音频文件波形，然后突出显示＆＃34; hold＆＃34;和＆＃34; tring＆＃34;来自该波形顶部的注释文件的音频。

来自大胆的波形如下：

代码如下：

"Traceback (most recent call last):
  File "/Users/Hamish/Desktop/Python/AWBM/Import.py", line 13, in <module>
    rain_column = float(row[7])
IndexError: list index out of range"

上述代码生成的图是：

正如你所看到的，情节似乎认为该文件长达90秒，实际上它只有31秒长。此外，注释段被错误地覆盖/突出显示。

我做错了什么，我该如何解决？

PS：在波形中，矩形块是＆＃34; tring＆＃34;剩下的四个＆＃34;梯形＆＃34;波形是保持音乐的区域。

Answer 1

这里只是猜测。 audacity屏幕截图显示了44100的采样率。您的代码片段的SAMPLE_RATE变量初始化为16000.如果您将原始的31秒乘以两个速率之间的比率，则为31 * 44100/16000 = 85.44秒。

绘图中的音频文件长度不正确，以及python中audioplot上的注释段不正确覆盖

1 个答案: