Question

我一直在尝试导入文件

reuters <- Corpus(DirSource(directory = "E:\\R Programs\\Test\\Reuteurs\\reut2-000.xml", encoding = "UTF-8"), 
   readerControl = list(reader = readReut21578XMLasPlain))

但是我得到以下错误：

Error in DirSource(directory = "E:\\R Programs\\Test\\Reuteurs\\reut2-000.xml",  : 
  empty directory

我还检查了stackoverflow中提供的其他解决方案，但它不适用于我。我错过了什么吗？

但是下面的代码有效：为什么DirSource方法对我不起作用？我错过了什么吗？

reuters <- Corpus(URISource("file://E:\\R Programs\\Test\\Reuteurs\\reut2-000.xml",encoding="UTF-8"), 
   readerControl = list(reader = readReut21578XMLasPlain))

我提到的参考链接：

R: Got problems in reading text file

Using R for Text Mining Reuters-21578

R Error in trying to access local data

Answer 1

reut2-000.xml可能是文件，而不是目录？

将文件作为目录打开将导致错误。

Answer 2

我建议您使用R包tm.corpus.Reuters21578中的预处理路透社语料库（正如我在此处已经推荐的那样：Using R for Text Mining Reuters-21578）。

install.packages("tm.corpus.Reuters21578", repos = "http://datacube.wu.ac.at")
library(tm.corpus.Reuters21578)
data(Reuters21578)

这些数据与原始路透社xml文件中的数据相同，但没有编码问题，缺少xml声明等。

DirSource导入文件问题

2 个答案: