Question

我正在尝试抓取网页“ https://www.ukdogracing.net/results/01-07-2018”，但收效不大。我相信该网页是用JavaScript编写的，所以我认为Rstudio中最好的方法是将rvest与phantomjs结合使用。到目前为止，我有：

下载了phantomjs并将其移至当前工作目录
通过一个示例javascript文件进行了实验，并了解了phantomjs如何将html文件保存到位置，然后如何使用rvest读取并解密该文件。

现在，我被卡住了！我已经做了以下工作，但是我得到的清单2看起来都不正确？我什至不相信我的URL正确-我应该输入其他Java类型的URL吗？

## change Phantom.js scrape file
url <- paste0("https://www.ukdogracing.net/results/01-07-2018")
lines <- readLines("scrape_final.js")
lines[1] <- paste0("var url ='", url ,"';")
writeLines(lines, "scrape_final.js")

## Download website
system("phantomjs scrape_final.js")

### use Rvest to scrape the downloaded website.
pg <- read_html("1.html")
pg[2]

RStudio-抓取JavaScript网页

0 个答案: