用R抓取网页时无法检索所有表格

时间:2016-12-15 04:39:17

标签: r web-scraping html-parsing

我想抓住"团队每场比赛统计数据" http://www.basketball-reference.com/leagues/NBA_1996.html上的表格,我已尝试过以下代码

webpage <- getURL("http://www.basketball-reference.com/leagues/NBA_1996.html")
tables <- readHTMLTable(webpage)

我也试图解析它

webpage <- getURL("http://www.basketball-reference.com/leagues/NBA_1996.html")
webpage <- readLines(tc <- textConnection(webpage))
pagetree <- htmlTreeParse(webpage, useInternalNodes = TRUE)
xpathApply(pagetree, "//table", xmlValue)

这两个代码只给出了#34; Division Standings&#34;下的两个表格,而该网页上应该有超过10个表格。

此外,当我搜索&#34; //table[@id='team-stats-per_game']&#34;在网页上的inspect元素下,它引导我直接到达我想要的表格,但当我尝试使用NULL找到相同的表时,R返回xpathApply

我在这里想念的是什么?提前谢谢。

0 个答案:

没有答案