Question

我想从链接http://www.espn.com/nfl/team/schedule/_/name/bal/baltimore-ravens

解析表格

我需要的所有信息都存储在节点// tbody中（XPath - // * [@ id =＆＃34; my-teams-table＆＃34;] / div [3] / div / table / tbody）< / p>

现在我正在使用XML包尝试R，

html_page <- htmlTreeParse(url, useInternalNodes = TRUE) topNode <- xmlRoot(html_page) content <- getNodeSet(topNode, "//tbody")

然而，这给了我一个空值。

Answer 1

我们可以使用rvest

library(rvest)
tbl <- read_html(url)  %>%
            html_nodes("table") %>%
            html_table(fill = TRUE, header = TRUE) %>%
            as.data.frame

数据

url <- "http://www.espn.com/nfl/team/schedule/_/name/bal/baltimore-ravens"

用R提取节点

1 个答案:

数据