这段代码:
library(tidyverse)
library(rvest)
url <- "http://www.imdb.com/title/tt4116284/"
director <- read_html(url) %>%
html_nodes(".summary_text+ .credit_summary_item .itemprop") %>%
html_text()
将获取纯文本值“Chris McKay”(新乐高蝙蝠侠电影的导演)。但是,底层的超链接href地址指向:
http://www.imdb.com/name/nm0003021?ref_=tt_ov_dr
我想要那个。如何调整我的css选择器以获取底层的超链接href地址?
答案 0 :(得分:2)
获取父href
标记的a
attr:
director <- read_html(url) %>%
html_nodes(".summary_text+ .credit_summary_item span a") %>%
html_attr('href')