Question

我想从我的计算机上读取一个文件（该文件是一个html文档）并将其存储在一个语料库中（我正在使用包tm）。

你有解决办法吗？

以下是我的尝试：

data<-read.csv(fileName)
c2<-Corpus(VectorSource(data))

它主要起作用，但我有时会得到错误：列数比列名更多

我想我不应该将read.csv用于网页，因为我找不到更好的解决方案。

感谢您的帮助=）

Answer 1

网页肯定不符合CSV应该符合的规范。相反，您可能希望使用XML包中的readHTMLTable函数。

这是从实际的网页抓取，但它应该是相同的想法

file <- "http://xkcd.com/"
dat <- readLines(file)
c2 <- Corpus(VectorSource(dat))