RStudio-抓取JavaScript网页

时间:2018-07-17 22:48:08

标签: javascript web-scraping phantomjs rvest

我正在尝试抓取网页“ https://www.ukdogracing.net/results/01-07-2018”,但收效不大。我相信该网页是用JavaScript编写的,所以我认为Rstudio中最好的方法是将rvest与phantomjs结合使用。到目前为止,我有:

  1. 下载了phantomjs并将其移至当前工作目录
  2. 通过一个示例javascript文件进行了实验,并了解了phantomjs如何将html文件保存到位置,然后如何使用rvest读取并解密该文件。

现在,我被卡住了!我已经做了以下工作,但是我得到的清单2看起来都不正确?我什至不相信我的URL正确-我应该输入其他Java类型的URL吗?

## change Phantom.js scrape file
url <- paste0("https://www.ukdogracing.net/results/01-07-2018")
lines <- readLines("scrape_final.js")
lines[1] <- paste0("var url ='", url ,"';")
writeLines(lines, "scrape_final.js")

## Download website
system("phantomjs scrape_final.js")

### use Rvest to scrape the downloaded website.
pg <- read_html("1.html")
pg[2]

0 个答案:

没有答案