Question

我正在尝试使用众所周知的Reuters-21578数据集，并且在将sgm文件加载到我的语料库时遇到了一些麻烦。

现在我正在使用命令

require(tm)
reut21578 <- system.file("reuters21578", package = "tm")
reuters <-Corpus(DirSource(reut21578), 
    readerControl = list(reader = readReut21578XML))

尝试将所有文件都包含在我的语料库中，但这会给我以下错误：

Error in DirSource(reut21578) : empty directory

知道我可能会出错吗？

Answer 1

＆＃34; tm＆＃34;包仅包含Reuters21578数据的样本。如果您想避免下载，加载和准备所有22个Reuters21578文件，您可以使用包＆＃34; tm.corpus.Reuters21578＆＃34;：

install.packages("tm.corpus.Reuters21578", repos = "http://datacube.wu.ac.at")
library(tm.corpus.Reuters21578)
data(Reuters21578)

使用R进行文本挖掘Reuters-21578

1 个答案: