我正在尝试从isrcsearch.ifpi.org抓取国际标准记录代码(ISRC)搜索结果,但是我使用rvest :: read_html()提取的网页内容不包含搜索结果表,该表显示如果我在网络浏览器中打开URL。
例如,如果要搜索“小甜甜布兰妮”的曲目“如果我在跳舞”,我将创建以下URL: https://isrcsearch.ifpi.org/#!/search?artistName=%22Britney%20Spears%22&trackTitle=%22If%20I'm%20Dancing%22&fileType=Audio&tab=advanced&showReleases=1&start=0&number=100
如果我在Google Chrome浏览器中打开URL,则会看到一个包含11条记录的表格,如果我使用Chrome浏览器“检查”网页元素,则会看到它属于一个类名称为“ table table”的表格元素-striped-custom”,位于顶级div ui视图下的几个级别。
但是,如果我改为“查看页面源代码”,则div ui-view中没有任何内容。 read_html()函数似乎正在提取页面内容的“查看页面源”版本,其中不包含搜索结果表。
我尝试了一些其他提取网页的方法,包括httr :: GET()和download.file(),但似乎没有任何方法可用于此奇怪的网页。任何想法都将不胜感激!
artist = "Britney Spears"
tracktitle = "If I'm Dancing"
url <- paste("https://isrcsearch.ifpi.org/#!/search?artistName=%22", URLencode(trimws(artist)), "%22&trackTitle=%22", URLencode(trimws(tracktitle)), "%22&fileType=Audio&tab=advanced&showReleases=1&start=0&number=100", sep = "")
#Reading the HTML code from the website
webpage <- read_html(url)
#try extracting ISRC but get "{xml_nodeset (0)}"
isrcCode_html <- html_nodes(webpage,"isrcCode")