无法使用rvest从isrcsearch.ifpi.org抓取搜索结果

时间:2019-03-23 05:41:10

标签: r web-scraping rvest

我正在尝试从isrcsearch.ifpi.org抓取国际标准记录代码(ISRC)搜索结果,但是我使用rvest :: read_html()提取的网页内容不包含搜索结果表,该表显示如果我在网络浏览器中打开URL。

例如,如果要搜索“小甜甜布兰妮”的曲目“如果我在跳舞”,我将创建以下URL: https://isrcsearch.ifpi.org/#!/search?artistName=%22Britney%20Spears%22&trackTitle=%22If%20I'm%20Dancing%22&fileType=Audio&tab=advanced&showReleases=1&start=0&number=100

如果我在Google Chrome浏览器中打开URL,则会看到一个包含11条记录的表格,如果我使用Chrome浏览器“检查”网页元素,则会看到它属于一个类名称为“ table table”的表格元素-striped-custom”,位于顶级div ui视图下的几个级别。

但是,如果我改为“查看页面源代码”,则div ui-view中没有任何内容。 read_html()函数似乎正在提取页面内容的“查看页面源”版本,其中不包含搜索结果表。

我尝试了一些其他提取网页的方法,包括httr :: GET()和download.file(),但似乎没有任何方法可用于此奇怪的网页。任何想法都将不胜感激!

  artist = "Britney Spears"
  tracktitle = "If I'm Dancing" 

  url <- paste("https://isrcsearch.ifpi.org/#!/search?artistName=%22", URLencode(trimws(artist)), "%22&trackTitle=%22", URLencode(trimws(tracktitle)), "%22&fileType=Audio&tab=advanced&showReleases=1&start=0&number=100", sep = "")
  #Reading the HTML code from the website
  webpage <- read_html(url)

  #try extracting ISRC but get "{xml_nodeset (0)}"
  isrcCode_html <- html_nodes(webpage,"isrcCode")

0 个答案:

没有答案