如何使用R正确地“抓取HTML表”

时间:2019-06-06 14:29:47

标签: html r dataframe

我想从此网页https://www.basketball-reference.com/boxscores/201410280LAL.html提取每个团队的基本和高级包装得分统计信息,并将其转换为数据框。

我曾尝试在R中使用rvest包来提取表,但没有得到所需的格式。

这是我之前尝试过的代码示例:

library(rvest)
library(xml2)
url <- "https://www.basketball-reference.com/boxscores/201410280LAL.html"
webpage <- read_html(url)
tbls <- html_nodes(webpage, "table")
awaybas <- webpage %>% html_nodes("table") %>% .[1] %>% html_table(header= TRUE, fill = TRUE)
awayadv <- webpage %>% html_nodes("table") %>% .[2] %>% html_table(header= TRUE, fill = TRUE)
homebas <- webpage %>% html_nodes("table") %>% .[3] %>% html_table(header= TRUE, fill = TRUE)
homeadv <- webpage %>% html_nodes("table") %>% .[4] %>% html_table(header= TRUE, fill = TRUE)

这将拉出我想要的每个表,但没有提供实际统计信息的标题。相反,它具有表的第一行,即标题作为列名。

在此结束时,我想有4张桌子,所有球员的统计数据都向下计到球队总数,而没有将州从储备金中除掉的行。我将为此提供的任何帮助将不胜感激。

0 个答案:

没有答案