我正在学习本教程(https://github.com/amsehili/audio-segmentation-by-classification-tutorial/blob/master/multiclass_audio_segmentation.ipynb)并尝试使用我自己的训练数据和样本重新创建可视化输出。
我的音频文件长31秒
:https://www.dropbox.com/s/qae2u5dnnp678my/test_hold.wav?dl=0
注释文件在这里:
https://www.dropbox.com/s/gm9uu1rjettm3qr/hold.lst?dl=0
https://www.dropbox.com/s/b6z1gt8i63c8ted/tring.lst?dl=0
我试图在python中绘制音频文件波形,然后突出显示" hold"和" tring"来自该波形顶部的注释文件的音频。
代码如下:
"Traceback (most recent call last):
File "/Users/Hamish/Desktop/Python/AWBM/Import.py", line 13, in <module>
rain_column = float(row[7])
IndexError: list index out of range"
正如你所看到的,情节似乎认为该文件长达90秒,实际上它只有31秒长。此外,注释段被错误地覆盖/突出显示。
我做错了什么,我该如何解决?
PS:在波形中,矩形块是&#34; tring&#34;剩下的四个&#34;梯形&#34;波形是保持音乐的区域。
答案 0 :(得分:2)
这里只是猜测。 audacity屏幕截图显示了44100的采样率。您的代码片段的SAMPLE_RATE变量初始化为16000.如果您将原始的31秒乘以两个速率之间的比率,则为31 * 44100/16000 = 85.44秒。