Question

我正在尝试从下面抓取内容 http://d-portal.org/ctrack.html#view=act&aid=NL-1-PPR-100

使用以下代码

Page <- read_html("http://d-portal.org/ctrack.html#view=act&aid=NL-1-PPR-100")
  
country_ <- Page %>% 
  html_nodes(".sector_code_text") %>%
  html_text() %>%
  paste(., collapse = "")

我使用过类似的代码从其他页面抓取内容，但是，我对网页抓取仍然是新手。我想知道 url 中的 #view 是否可能是一个需要另一种抓取内容的方法的问题。有没有人经历过类似的事情和/或可以建议我如何进一步进行？

最佳人选

Answer 1

此页面使用动态生成的内容。 read_html 只读取请求发送的源 html。它不会运行 javascript。您将需要使用 Selenium 或某种无头浏览器，如 phantomJS。要考虑的相应 R 包是 RSelenium 或 webdriver。我会先尝试 webdriver，因为前者需要设置和运行单独的 Selenium 服务器。 Webdriver 需要 phantomJS，但安装起来要容易得多。

来自 html#view 的 R 网页抓取

1 个答案: