Question

我试图从Basketball Reference网站上提取数据。

library(rvest)
data7 <- read_html("http://www.basketball-reference.com/teams/CLE/2017.html") %>%
html_nodes("[id=roster]") %>%
html_table()
data7

上面的代码返回＆＃34;名单中的数据＆＃34;表。但是，以下代码不会返回＆＃34; team_misc＆＃34;表，但返回一个legth为零的列表：

html_nodes("[id=team_misc]") %>%

我对rvest很新，所以如果有人有任何想法，为什么这不起作用，我们将不胜感激。

Answer 1

实际上已经有了这个问题的答案，但它适用于网站的旧版本....无法获取其他表的原因是因为它们是动态创建的，并且在{{1}中呈现原始页面时你想要的表是注释掉的字符串。您应该检查chrome上页面的元素以查看我所指的内容。另一个答案是How to scrape tables inside a comment tag in html with R?

但对于你的年份数据：

html_print(cstr('abc', 'red'))

使用rvest和html_nodes（）以及html_table（）提取网站表

1 个答案: