网络抓取:努力找到正确的html_node

时间:2019-03-04 17:21:00

标签: r web-scraping rvest rselenium

我正试图在一些法院案件中取消详细信息,并努力为rvest软件包找到正确的html节点。

我使用了选择器小工具并尝试了各种节点,但不幸的是没有结果。我开始怀疑网站的结构是否存在问题。感兴趣的信息似乎嵌入在弹出窗口中,也许这妨碍了我的尝试。有什么帮助吗?我是否必须开始研究splashrhtmlunitRSelenium软件包?该link指向一个感兴趣的站点。我对“案例详细信息”标签下的信息特别感兴趣。 (我有一个打算映射到rvest函数的链接列表)。

library(rvest)
library(tidyverse)

site.case <- read_html("http://hudoc.echr.coe.int/eng?i=001-1297")

我尝试了这些节点,但总是得到一个空列表作为响应。

site.case %>%
    #html_node(".content")
    #html_nodes(".noticefield")
    #html_node("notice") 
    #html_node(".div.col-offset-2.noticefieldvalue")

非常感谢!

0 个答案:

没有答案
相关问题