Question

我想从此网页https://www.basketball-reference.com/boxscores/201410280LAL.html提取每个团队的基本和高级包装得分统计信息，并将其转换为数据框。

我曾尝试在R中使用rvest包来提取表，但没有得到所需的格式。

这是我之前尝试过的代码示例：

library(rvest)
library(xml2)
url <- "https://www.basketball-reference.com/boxscores/201410280LAL.html"
webpage <- read_html(url)
tbls <- html_nodes(webpage, "table")
awaybas <- webpage %>% html_nodes("table") %>% .[1] %>% html_table(header= TRUE, fill = TRUE)
awayadv <- webpage %>% html_nodes("table") %>% .[2] %>% html_table(header= TRUE, fill = TRUE)
homebas <- webpage %>% html_nodes("table") %>% .[3] %>% html_table(header= TRUE, fill = TRUE)
homeadv <- webpage %>% html_nodes("table") %>% .[4] %>% html_table(header= TRUE, fill = TRUE)

这将拉出我想要的每个表，但没有提供实际统计信息的标题。相反，它具有表的第一行，即标题作为列名。

在此结束时，我想有4张桌子，所有球员的统计数据都向下计到球队总数，而没有将州从储备金中除掉的行。我将为此提供的任何帮助将不胜感激。

如何使用R正确地“抓取HTML表”

0 个答案: