我正在尝试使用众所周知的Reuters-21578数据集,并且在将sgm文件加载到我的语料库时遇到了一些麻烦。
现在我正在使用命令
require(tm)
reut21578 <- system.file("reuters21578", package = "tm")
reuters <-Corpus(DirSource(reut21578),
readerControl = list(reader = readReut21578XML))
尝试将所有文件都包含在我的语料库中,但这会给我以下错误:
Error in DirSource(reut21578) : empty directory
知道我可能会出错吗?
答案 0 :(得分:5)
&#34; tm&#34;包仅包含Reuters21578数据的样本。如果您想避免下载,加载和准备所有22个Reuters21578文件,您可以使用包&#34; tm.corpus.Reuters21578&#34;:
install.packages("tm.corpus.Reuters21578", repos = "http://datacube.wu.ac.at")
library(tm.corpus.Reuters21578)
data(Reuters21578)