来自css选择器的底层超链接href地址

时间:2017-02-08 13:47:37

标签: r css-selectors rvest

这段代码:

library(tidyverse)
library(rvest)

url <- "http://www.imdb.com/title/tt4116284/"

director <- read_html(url) %>% 
    html_nodes(".summary_text+ .credit_summary_item .itemprop") %>% 
    html_text()

将获取纯文本值“Chris McKay”(新乐高蝙蝠侠电影的导演)。但是,底层的超链接href地址指向: http://www.imdb.com/name/nm0003021?ref_=tt_ov_dr

我想要那个。如何调整我的css选择器以获取底层的超链接href地址?

1 个答案:

答案 0 :(得分:2)

获取父href标记的a attr:

director <- read_html(url) %>% 
    html_nodes(".summary_text+ .credit_summary_item span a") %>% 
    html_attr('href')