将HTML文档读入R中

时间:2015-10-27 13:03:24

标签: r

此页面:http://www.navysports.com/sports/m-footbl/stats/2015-2016/teamcume.html与大多数其他HTML页面不同,因为我使用readHTMLTable不允许它工作。我得到的所有答案都是

$'NULL'

我试图将Punting数据从页面中取出然后将其导入R.如果readHTMLTable不起作用,我将如何导入该文本?

1 个答案:

答案 0 :(得分:0)

如果查看该页面的来源,表格不是html表格,它们可能是复制粘贴的ascii表格。它们包含在<pre>标记中,所以:

res <- htmlParse("http://www.navysports.com/sports/m-footbl/stats/2015-2016/teamcume.html")
x <- xpathSApply(res, "//pre", xmlValue)
substring(x[[1]], 1, 300)

[1] "\r\n\r\n\r\n                               2015 Navy Football\r\n               Navy Overall Team Statistics (as of Oct 24, 2015)\r\n                                   All games\r\n\r\nTEAM STATISTICS                        NAVY          OPP\r\n--------------------------------------------------------\r\nSCORING......"

使用各种函数读取该字符串。