DirSource导入文件问题

时间:2016-05-03 07:42:42

标签: r tm

我一直在尝试导入文件

reuters <- Corpus(DirSource(directory = "E:\\R Programs\\Test\\Reuteurs\\reut2-000.xml", encoding = "UTF-8"), 
   readerControl = list(reader = readReut21578XMLasPlain))

但是我得到以下错误:

Error in DirSource(directory = "E:\\R Programs\\Test\\Reuteurs\\reut2-000.xml",  : 
  empty directory

我还检查了stackoverflow中提供的其他解决方案,但它不适用于我。我错过了什么吗?

但是下面的代码有效:为什么DirSource方法对我不起作用?我错过了什么吗?

reuters <- Corpus(URISource("file://E:\\R Programs\\Test\\Reuteurs\\reut2-000.xml",encoding="UTF-8"), 
   readerControl = list(reader = readReut21578XMLasPlain))

我提到的参考链接:

R: Got problems in reading text file

Using R for Text Mining Reuters-21578

R Error in trying to access local data

2 个答案:

答案 0 :(得分:2)

reut2-000.xml可能是文件,而不是目录

将文件作为目录打开将导致错误。

答案 1 :(得分:0)

我建议您使用R包tm.corpus.Reuters21578中的预处理路透社语料库(正如我在此处已经推荐的那样:Using R for Text Mining Reuters-21578)。

install.packages("tm.corpus.Reuters21578", repos = "http://datacube.wu.ac.at")
library(tm.corpus.Reuters21578)
data(Reuters21578)

这些数据与原始路透社xml文件中的数据相同,但没有编码问题,缺少xml声明等。