试图从网站上刮取数据表。数据由javascript代码生成

时间:2015-09-27 19:31:53

标签: javascript r web-scraping rvest

我正在尝试使用R下载网站https://sites.google.com/a/slu.edu/swartwout/home/cubesat-database上的数据表。我还没有找到一种可以做到这一点的方法。只有将其复制并粘贴到Excel中时,才能访问数据。这是不起作用的尝试:

    url <- read_html("https://sites.google.com/a/slu.edu/swartwout/home/cubesat-database")
    table <- url %>%
      + html_nodes(xpath='/html/body/script[2]/text()') %>%
      + html_table(header = TRUE, fill=TRUE)

我尝试了很多html_nodes,但没有一个能够正常工作。我可能做错了,或者我可能需要一种不同的方法。数据似乎是由javascript生成的。表格中显示的数据在html代码中完全不可见,即使在查看网站时可见。 Hadley Wickham的Selectorgadget在应用于The Lego Movie的imdb页面时效果很好,但在这个网站上根本没有。

在我写这篇文章时,StackOverflow提出了一个类似的问题stumped on how to scrape the data from this site (using R)。这表明使用RSelenium。我没有成功地遵循这种方法。我收到了一些错误,包括&#34;'RSelenium'&#34;的包装或命名空间加载失败。

0 个答案:

没有答案