将HTML代码读入R以获取数据和信息。文本挖掘

时间:2015-03-02 21:24:51

标签: html r data-mining text-mining

我正在尝试将此网站上的信息读入R中以进行数据和文本分析:

http://www.nhl.com/scores/htmlreports/20142015/PL020916.HTM

我尝试使用以下软件包和代码将源代码读入R:

library(XML)
theurl <- "http://www.nhl.com/scores/htmlreports/20142015/PL020916.HTM"
tables <- readHTMLTable(theurl)

con = url("http://www.nhl.com/scores/htmlreports/20142015/PL020916.HTM")
htmlCode=readLines(con)
close(con)
htmlCode

我正在寻找一个输出,它是所提供信息的平面文件。

1 个答案:

答案 0 :(得分:0)

我不确定您所提供的页面中有哪些信息,但是您可以使用rvest来阅读它...

url <- "http://www.nhl.com/scores/htmlreports/20142015/PL020916.HTM"
library("rvest")
url %>% html()