使用单个文件创建语料库(网页)

时间:2012-03-22 13:45:56

标签: file r

我想从我的计算机上读取一个文件(该文件是一个html文档)并将其存储在一个语料库中(我正在使用包tm)。

你有解决办法吗?

以下是我的尝试:

data<-read.csv(fileName)
c2<-Corpus(VectorSource(data))

它主要起作用,但我有时会得到错误:列数比列名更多

我想我不应该将read.csv用于网页,因为我找不到更好的解决方案。

感谢您的帮助=)

1 个答案:

答案 0 :(得分:7)

网页肯定不符合CSV应该符合的规范。相反,您可能希望使用XML包中的readHTMLTable函数。


这是从实际的网页抓取,但它应该是相同的想法

file <- "http://xkcd.com/"
dat <- readLines(file)
c2 <- Corpus(VectorSource(dat))