使用R进行文本挖掘Reuters-21578

时间:2013-11-25 04:00:56

标签: r corpus tm reuters

我正在尝试使用众所周知的Reuters-21578数据集,并且在将sgm文件加载到我的语料库时遇到了一些麻烦。

现在我正在使用命令

require(tm)
reut21578 <- system.file("reuters21578", package = "tm")
reuters <-Corpus(DirSource(reut21578), 
    readerControl = list(reader = readReut21578XML))

尝试将所有文​​件都包含在我的语料库中,但这会给我以下错误:

Error in DirSource(reut21578) : empty directory

知道我可能会出错吗?

1 个答案:

答案 0 :(得分:5)

&#34; tm&#34;包仅包含Reuters21578数据的样本。如果您想避免下载,加载和准备所有22个Reuters21578文件,您可以使用包&#34; tm.corpus.Reuters21578&#34;:

install.packages("tm.corpus.Reuters21578", repos = "http://datacube.wu.ac.at")
library(tm.corpus.Reuters21578)
data(Reuters21578)