我想从我的计算机上读取一个文件(该文件是一个html文档)并将其存储在一个语料库中(我正在使用包tm
)。
你有解决办法吗?
以下是我的尝试:
data<-read.csv(fileName)
c2<-Corpus(VectorSource(data))
它主要起作用,但我有时会得到错误:列数比列名更多
我想我不应该将read.csv
用于网页,因为我找不到更好的解决方案。
感谢您的帮助=)
答案 0 :(得分:7)
网页肯定不符合CSV应该符合的规范。相反,您可能希望使用XML包中的readHTMLTable
函数。
这是从实际的网页抓取,但它应该是相同的想法
file <- "http://xkcd.com/"
dat <- readLines(file)
c2 <- Corpus(VectorSource(dat))