应用错误收集

尝试使用rvest提取r包的链接

时间：2018-06-08 22:30:31

标签： r web-scraping rvest

我一直在尝试使用此question和此tutorial来获取vailable rpackages in cran

列表的表格和链接

获取html表

我这样做是对的：

i*i

试图获取链接

当我尝试获取链接是我遇到麻烦的地方时，我尝试使用选择器小工具作为表格的第一列（包链接），我得到了节点library(rvest) page <- read_html("http://cran.r-project.org/web/packages/available_packages_by_name.html") %>% html_node("table") %>% html_table(fill = TRUE, header = FALSE)，所以我尝试了这个：

td a

但我只获得第一个链接，然后我想我可以从表中获取所有test2 <- read_html("http://cran.r-project.org/web/packages/available_packages_by_name.html") %>% html_node("td a") %>% html_attr("href")并尝试以下内容：

href

但什么都没有，我做错了什么？

1 个答案:

答案 0 :(得分：1)

基本上，缺少“s”：使用html_nodes()代替html_node：

x <- 
  read_html(paste0(
    "http://cran.r-project.org/web/",
    "packages/available_packages_by_name.html")) 

html_nodes(x, "td a") %>% 
  sapply(html_attr, "href")