rvest不适合这种抓取功能

时间:2018-02-28 16:33:25

标签: r web-scraping rvest httr

我正在尝试使用R来浏览此网页以获取其标题内容,但rvest并不是这项工作的好工具。

我的代码:

url <-"https://letterboxd.com/crew/list/most-fans-on-letterboxd-with-pronoun-she/"

title <- read_html(url) %>% 
  html_nodes("span .frame-title") %>% # selector 
  html_text()  

哪个应该给我与给定节点相关联的标题(使用示例:电影 她(2013) )...

<span class="frame-title" data-reactid=".c.3.1">Her (2013)</span>

...但是每次和每个插槽都会输出空白(&#34;&#34;)。

我正在考虑RCurl包,但我不知道它是否真的有助于我提取节点的情况。我想在这个部门寻求一些帮助来获取#34; frame-title&#34;对于这个网页。任何帮助将不胜感激。

1 个答案:

答案 0 :(得分:0)

该网站的网页来源与您发布的内容不同。以下应该解决它:

read_html(url) %>% 
    html_nodes("img") %>% 
    html_attr("alt")