使用rvest和html_nodes()以及html_table()提取网站表

时间:2017-03-01 14:25:20

标签: r html-table

我试图从Basketball Reference网站上提取数据。

library(rvest)
data7 <- read_html("http://www.basketball-reference.com/teams/CLE/2017.html") %>%
html_nodes("[id=roster]") %>%
html_table()
data7

上面的代码返回&#34;名单中的数据&#34;表。但是,以下代码不会返回&#34; team_misc&#34;表,但返回一个legth为零的列表:

html_nodes("[id=team_misc]") %>%

我对rvest很新,所以如果有人有任何想法,为什么这不起作用,我们将不胜感激。

1 个答案:

答案 0 :(得分:0)

实际上已经有了这个问题的答案,但它适用于网站的旧版本....无法获取其他表的原因是因为它们是动态创建的,并且在{{1}中呈现原始页面时你想要的表是注释掉的字符串。您应该检查chrome上页面的元素以查看我所指的内容。另一个答案是How to scrape tables inside a comment tag in html with R?

但对于你的年份数据:

html_print(cstr('abc', 'red'))