来自 html#view 的 R 网页抓取

时间:2021-04-23 12:16:37

标签: r web-scraping

我正在尝试从下面抓取内容 http://d-portal.org/ctrack.html#view=act&aid=NL-1-PPR-100

使用以下代码

Page <- read_html("http://d-portal.org/ctrack.html#view=act&aid=NL-1-PPR-100")
  
country_ <- Page %>% 
  html_nodes(".sector_code_text") %>%
  html_text() %>%
  paste(., collapse = "")

我使用过类似的代码从其他页面抓取内容,但是,我对网页抓取仍然是新手。 我想知道 url 中的 #view 是否可能是一个需要另一种抓取内容的方法的问题。 有没有人经历过类似的事情和/或可以建议我如何进一步进行?

最佳人选

1 个答案:

答案 0 :(得分:-1)

此页面使用动态生成的内容。 read_html 只读取请求发送的源 html。它不会运行 javascript。您将需要使用 Selenium 或某种无头浏览器,如 phantomJS。要考虑的相应 R 包是 RSeleniumwebdriver。我会先尝试 webdriver,因为前者需要设置和运行单独的 Selenium 服务器。 Webdriver 需要 phantomJS,但安装起来要容易得多。

相关问题