GTZAN音乐流派数据集

时间:2012-07-13 07:20:36

标签: classification

我想在公共数据集中测试我的音乐类型算法,以与其他预先存在的算法进行比较。在MIREX的情况下,所有数据都不可用。 我发现GTZAN数据集可以在一个链接中找到(marsyas.info/download/data_sets) 但是,现在我无法使用它。

您知道我怎样才能获得这些数据?因为我使用除MFCC以外的其他功能,所以我需要流派注释以及音乐。

提前致谢。

4 个答案:

答案 0 :(得分:8)

编辑:现在看来,Marsyas页面托管在marsyasweb.appspot.com,你可以在data sets子页面找到GTZAN数据库的链接。

我也在为我的大学项目寻找GTZAN数据集,我发现http://marsyas.info已关闭,所以我使用google web cache for marsyas.info/download/data_sets(查看更多信息)。幸运的是,GTZAN数据集托管在http://opihi.cs.uvic.ca,您可以download them

但在使用数据集之前请注意许可 (来自缓存的marsyas下载页面的信息):

  

该数据集用于流派分类中的知名论文"音频信号的音乐类型分类"作者:G。Tzanetakis和P. Cook在IEEE Transactions on Audio and Speech Processing 2002。

     

不幸的是,数据库是在我的研究中逐渐收集的,所以我没有标题(显然没有版权许可等)。这些文件是在2000-2001期间从各种来源收集的,包括个人CD,收音机,麦克风录音,以表示各种录音条件。尽管如此,我一直在向研究人员提供它主要用于比较目的等。如果您打算使用此数据集发布实验结果,请联系George Tzanetakis(gtzan@cs.uvic.ca)。

     

数据集由每30秒长的1000个音轨组成。它包含10种类型,每种类型由100个轨道代表。这些曲目都是.wav格式的22050Hz单声道16位音频文件。

也许您也会对其他数据集感兴趣,例如Magnatagatune - http://tagatune.org/Magnatagatune.html

答案 1 :(得分:3)

我也在寻找这样的基准 我在一篇名为“从声音到'感觉'的论文中找到了这一点,通过特征提取和机器学习 - 推导出用于表征音乐的高级描述符”:

  

目前音乐界正在进行一些努力   信息检索社区编译大型存储库   标记的音乐,可供所有感兴趣的研究人员使用   没有版权问题。值得注意的例子是Masa- taka   Goto的RWC音乐数据库(http://staff.aist.go.jp/m.goto/RWC-MDB),   IMIRSEL(国际音乐信息检索系统评估)   伊利诺伊大学厄巴纳 - 香槟分校的实验室项目   (http://www.music-ir.org/evaluation-另见[12]),以及新的   FreeSound Initiative(http://freesound.iua.upf.edu)。

但我找不到任何有用的东西。获取第一个提到的数据库的副本的过程是here,但看起来非常复杂!

答案 2 :(得分:2)

听起来你可能想要Million Songs Dataset,它有一百万首歌曲,有音频功能,标签,歌词等等,由Echonest和Labrosa重新发布。当然,这是假设您正在使用音乐元数据和转录。

如果您正在寻找原始音频......这是另一回事。我不知道你是否愿意发表,在这种情况下,知识产权法可能是一个更重要的因素。但是对于私人测试,我怀疑你可以只使用你自己的音乐库中的文件(例如,iTunes下载已经有一个类型标签来测试你的算法)。

免责声明:我不是律师。接受我的法律建议需要您自担风险。

答案 3 :(得分:2)

我知道这个答案已经很久了,但是我觉得有必要用我的答案来更新这个线程。

取决于您的流派分类实现,我假设这是基于内容的(频谱图在深度学习方法中很常用,但是您确实提到了MFCC),您可能会发现查找具有已提取特征的数据集很容易从音频。这可能是直接将您的结果与其他方法进行比较的最简单方法。

为此,您可以使用拉丁音乐数据库(可以从here获得),免费音乐档案库(可以从here获得),希腊音乐或音频数据集。可以从here获取的CAL10k / CAL500数据集here中获得,以及几乎可以从此website抓取到的其他任何数据集。

否则,我建议做的是使用一些特征提取库或工具箱自己提取这些特征,这样就可以使用GTZANBallroom数据集(或其他有音频的数据集)文件)。 betatester07 的链接目前仍在起作用!

我发现最容易使用的特征提取方法分别是Java和Python的jAudioLibROSA。使用jAudio,您还可以从命令行调用它,或者仅使用gui,它也接受批处理文件,因此您可以一次处理一大堆音频文件。使用这些提取方法,如果它们在要实施或比较的论文中抬起头来,则可以获得与那些标准特征匹配的所有特征。

请谨慎使用这些标准“基准”数据集,因为它们仍然存在缺陷。为此,您想查看Sturm的work

希望有帮助:)