使用rvest提取页面中的多个表

时间:2019-04-14 09:23:44

标签: r rvest

我是R的新手,正试图从Sec文件的附件21中删除子公司的列表。附件21中可能有多个表,具体取决于所涉及的公司。

如何将所有列表转换为数据框,附加所有数据框并导出到csv?

library(rvest)

webpage <- read_html("https://www.sec.gov/Archives/edgar/data/21665/000144530512000409/exhibit21.htm")

tbls <- html_nodes(webpage, "table")
tbls_ls <- html_table(tbls,fill = TRUE)

colnames(tbls_ls[[1]]) <- c("Name", "Country")

1 个答案:

答案 0 :(得分:0)

您可以从链接中获取所有表,并使用bind_rows

将它们绑定在一起
library(rvest)
library(dplyr)

url <- "https://www.sec.gov/Archives/edgar/data/21665/000144530512000409/exhibit21.htm"

url %>%
  read_html() %>%
  html_table() %>%
  bind_rows()

但是,由于它不能分别标识列名,因此之后需要进行一些清理和重命名。