使用rvest刮表 - 嵌入式符号/链接

时间:2017-10-22 16:50:14

标签: html html-table rvest scrape

我试图在以下网页上抓取表格:http://www.comstats.de/squad/1-FC+Bayern+München

使用以下代码,我的方法乍一看是成功的:

read_html("http://www.comstats.de/squad/1-FC+Bayern+München") %>% 
html_node("#inhalt > table.rangliste.autoColor.tablesorter.zoomable") %>%
html_table(header = TRUE, fill = TRUE)

但是,在第二列中存在不同数量的链接符号,这导致具有不同数量元素的损坏表(这就是为什么需要fill = TRUE)。

我正在研究几个小时......谁能帮助我?

1 个答案:

答案 0 :(得分:0)

如果有人正在寻找这些问题的答案:一种可能的解决方案是使用包htmltable(https://cran.r-project.org/web/packages/htmltab/vignettes/htmltab.html):

library(htmltab)

htmltab(doc = "http://www.comstats.de/squad/1-FC+Bayern+München", which = '//*[@id="inhalt"]/table[2]')