应用错误收集

GTZAN音乐流派数据集

时间：2012-07-13 07:20:36

标签： classification

我想在公共数据集中测试我的音乐类型算法，以与其他预先存在的算法进行比较。在MIREX的情况下，所有数据都不可用。我发现GTZAN数据集可以在一个链接中找到（marsyas.info/download/data_sets）但是，现在我无法使用它。

您知道我怎样才能获得这些数据？因为我使用除MFCC以外的其他功能，所以我需要流派注释以及音乐。

提前致谢。

4 个答案:

答案 0 :(得分：8)

编辑：现在看来，Marsyas页面托管在marsyasweb.appspot.com，你可以在data sets子页面找到GTZAN数据库的链接。

我也在为我的大学项目寻找GTZAN数据集，我发现http://marsyas.info已关闭，所以我使用google web cache for marsyas.info/download/data_sets（查看更多信息）。幸运的是，GTZAN数据集托管在http://opihi.cs.uvic.ca，您可以download them！

但在使用数据集之前请注意许可（来自缓存的marsyas下载页面的信息）：

该数据集用于流派分类中的知名论文＆＃34;音频信号的音乐类型分类＆＃34;作者：G。Tzanetakis和P. Cook在IEEE Transactions on Audio and Speech Processing 2002。

不幸的是，数据库是在我的研究中逐渐收集的，所以我没有标题（显然没有版权许可等）。这些文件是在2000-2001期间从各种来源收集的，包括个人CD，收音机，麦克风录音，以表示各种录音条件。尽管如此，我一直在向研究人员提供它主要用于比较目的等。如果您打算使用此数据集发布实验结果，请联系George Tzanetakis（gtzan@cs.uvic.ca）。

数据集由每30秒长的1000个音轨组成。它包含10种类型，每种类型由100个轨道代表。这些曲目都是.wav格式的22050Hz单声道16位音频文件。

也许您也会对其他数据集感兴趣，例如Magnatagatune - http://tagatune.org/Magnatagatune.html。

答案 1 :(得分：3)

我也在寻找这样的基准我在一篇名为“从声音到'感觉'的论文中找到了这一点，通过特征提取和机器学习 - 推导出用于表征音乐的高级描述符”：

目前音乐界正在进行一些努力信息检索社区编译大型存储库标记的音乐，可供所有感兴趣的研究人员使用没有版权问题。值得注意的例子是Masa- taka Goto的RWC音乐数据库（http://staff.aist.go.jp/m.goto/RWC-MDB）， IMIRSEL（国际音乐信息检索系统评估）伊利诺伊大学厄巴纳 - 香槟分校的实验室项目（http://www.music-ir.org/evaluation-另见[12]），以及新的 FreeSound Initiative（http://freesound.iua.upf.edu）。

但我找不到任何有用的东西。获取第一个提到的数据库的副本的过程是here，但看起来非常复杂！

答案 2 :(得分：2)

听起来你可能想要Million Songs Dataset，它有一百万首歌曲，有音频功能，标签，歌词等等，由Echonest和Labrosa重新发布。当然，这是假设您正在使用音乐元数据和转录。

如果您正在寻找原始音频......这是另一回事。我不知道你是否愿意发表，在这种情况下，知识产权法可能是一个更重要的因素。但是对于私人测试，我怀疑你可以只使用你自己的音乐库中的文件（例如，iTunes下载已经有一个类型标签来测试你的算法）。

免责声明：我不是律师。接受我的法律建议需要您自担风险。

答案 3 :(得分：2)

我知道这个答案已经很久了，但是我觉得有必要用我的答案来更新这个线程。

取决于您的流派分类实现，我假设这是基于内容的（频谱图在深度学习方法中很常用，但是您确实提到了MFCC），您可能会发现查找具有已提取特征的数据集很容易从音频。这可能是直接将您的结果与其他方法进行比较的最简单方法。

为此，您可以使用拉丁音乐数据库（可以从here获得），免费音乐档案库（可以从here获得），希腊音乐或音频数据集。可以从here获取的CAL10k / CAL500数据集here中获得，以及几乎可以从此website抓取到的其他任何数据集。

否则，我建议做的是使用一些特征提取库或工具箱自己提取这些特征，这样就可以使用GTZAN或Ballroom数据集（或其他有音频的数据集）文件）。 betatester07 的链接目前仍在起作用！

我发现最容易使用的特征提取方法分别是Java和Python的jAudio或LibROSA。使用jAudio，您还可以从命令行调用它，或者仅使用gui，它也接受批处理文件，因此您可以一次处理一大堆音频文件。使用这些提取方法，如果它们在要实施或比较的论文中抬起头来，则可以获得与那些标准特征匹配的所有特征。

请谨慎使用这些标准“基准”数据集，因为它们仍然存在缺陷。为此，您想查看Sturm的work。

希望有帮助：）