那里有很多音乐歌词网站。前一阵子,我正在看一些我所在的乐队的歌词。它让我想到,“这个网站如何获得所有这些歌词,我怎么能得到这样的东西呢?”当时找不到多少,所以我决定编写一个程序,基本上解析一个网站的乐队信息和歌词,并将数据放在我创建的数据库中。
但我仍然想知道这些网站如何获取他们的数据?我的方式不是非常有效,非常特定于站点,如果站点更改其脚本结构,我必须更改我的解析程序。必须有一个更简单的方法。
非常感谢任何人的想法!
答案 0 :(得分:1)
我猜是JSON或XML文件。要“亲自动手” - 有各种方法和方法从网站下载数据。 wget是一种手段,不是我宽恕它,但它几乎不是秘密
答案 1 :(得分:0)
大部分网站都会收到用户的歌词。例如,Musixmatch,如果他们的数据库中不存在歌词,他们允许用户创建他们的歌词。当用户创建歌词时,它可能会自动保存到musixmatch的数据库中。有大量的歌词网站允许用户上传歌词。
网站获取数据的另一种方式是通过数据挖掘,就像你说的那样,写一个解析器/刮刀来浏览其他人的网站。