使用RVest中的html_nodes时未显示HTML内容

时间:2019-06-20 15:09:51

标签: html r web-scraping rvest

我正在尝试在https://ideas.repec.org/的网页中获得特定的号码。更具体地说,我正在寻找以下搜索结果:IDEAS' search results

但是,当我应用以下代码时,我得到一个空字符串:

library(rvest)

x <- GET("https://ideas.repec.org/cgi-bin/htsearch?form=extended&wm=wrd&dt=range&ul=&q=labor&cmd=Search%21&wf=4BFF&s=R&db=01%2F01%2F1950&de=31%2F12%2F1950")
webpage <- read_html(x)
hits_html <- html_nodes(webpage, xpath = '//*[@id="content-block"]/p')
hits <- html_text(hits_html)
hits

[1] ""

1 个答案:

答案 0 :(得分:1)

您可以从适当的节点对其进行正则表达式。这确实假设字符串和大小写前后都有一个常数。您也可以使用$validTags = '*[id|class|name],br,a[href|title|rel|target],' . 'img[src|alt|height|width],div,' . 'u,em,ul,ol,li,strong,span,mytag,v:roundrect,form[action|method]'; $config->set('HTML.Allowed', $validTags); 使其不区分大小写。

(?i)found\\s+(\\d+)\\s+results