尝试使用rvest提取r包的链接

时间:2018-06-08 22:30:31

标签: r web-scraping rvest

我一直在尝试使用此question和此tutorial来获取vailable rpackages in cran

列表的表格和链接

获取html表

我这样做是对的:

i*i

试图获取链接

当我尝试获取链接是我遇到麻烦的地方时,我尝试使用选择器小工具作为表格的第一列(包链接),我得到了节点library(rvest) page <- read_html("http://cran.r-project.org/web/packages/available_packages_by_name.html") %>% html_node("table") %>% html_table(fill = TRUE, header = FALSE) ,所以我尝试了这个:

td a

但我只获得第一个链接,然后我想我可以从表中获取所有test2 <- read_html("http://cran.r-project.org/web/packages/available_packages_by_name.html") %>% html_node("td a") %>% html_attr("href") 并尝试以下内容:

href

但什么都没有,我做错了什么?

1 个答案:

答案 0 :(得分:1)

基本上,缺少“s”:使用html_nodes()代替html_node

x <- 
  read_html(paste0(
    "http://cran.r-project.org/web/",
    "packages/available_packages_by_name.html")) 

html_nodes(x, "td a") %>% 
  sapply(html_attr, "href")