如何在Spotify上找到曲目的原始发行日期(而非重新发行日期)?

时间:2019-06-06 21:20:37

标签: python web-scraping dataset spotify data-cleaning

我正在与Spotify一起进行个人项目,从中我发现与输入的歌曲最相似的歌曲。基本上,我已经在Spotify上创建了一个庞大的曲目数据集(大约550,000个曲目),并包含其所有元数据和“歌曲功能”。

该数据集具有曲目名称/ URI,艺术家名称/ URI,专辑名称/ URI,发行年份和Spotify计算的曲目属性,例如舞蹈性或声学性等。该数据集以CSV格式存储在本地,但是我可以,当然,可以轻松地将其转换为数据框或numpy数组。

在我的程序中,准确确定数据集中的发行年份非常重要,因为这是确定歌曲相似性的重要功能之一。

当前,我正在使用Spotify API专辑发行日期来提取歌曲发行的年份。确实效果很好,但是这种方法存在一个问题:重新发行专辑/曲目。

对于许多年长的艺术家(我的数据集的很大一部分),他们将在1971年发行一首歌,然后在2015年重新发行的专辑中出现同一首歌。尽管这两首歌是相同的,它们具有不同的Spotify URI,不同的专辑名称/ ID,并且通常歌曲的名称也经常有所不同(例如,“通往天堂的阶梯”与“通往天堂的阶梯-2012 Remaster”),因此很难分辨它们是重复的歌曲,在我的数据集中重新发布的歌曲的年份是2012,而不是应该的1971。

基本上,如果用户输入的是2012年的歌曲,那么我想查找该时间段内的类似歌曲,而不是1971年伪装成2012年歌曲的歌曲。

您是否知道以下两种方法之一?

A)使用第二段中描述的功能有效地在数据集中找到重复的曲目(55万首歌曲)?

B)一个API,它将告诉您歌曲的原始发行日期,而不是重新发行的发行日期吗?

感谢您可以提供的任何帮助

0 个答案:

没有答案