我一直在尝试导入文件
reuters <- Corpus(DirSource(directory = "E:\\R Programs\\Test\\Reuteurs\\reut2-000.xml", encoding = "UTF-8"),
readerControl = list(reader = readReut21578XMLasPlain))
但是我得到以下错误:
Error in DirSource(directory = "E:\\R Programs\\Test\\Reuteurs\\reut2-000.xml", :
empty directory
我还检查了stackoverflow中提供的其他解决方案,但它不适用于我。我错过了什么吗?
但是下面的代码有效:为什么DirSource方法对我不起作用?我错过了什么吗?
reuters <- Corpus(URISource("file://E:\\R Programs\\Test\\Reuteurs\\reut2-000.xml",encoding="UTF-8"),
readerControl = list(reader = readReut21578XMLasPlain))
我提到的参考链接:
R: Got problems in reading text file
答案 0 :(得分:2)
reut2-000.xml
可能是文件,而不是目录?
将文件作为目录打开将导致错误。
答案 1 :(得分:0)
我建议您使用R包tm.corpus.Reuters21578
中的预处理路透社语料库(正如我在此处已经推荐的那样:Using R for Text Mining Reuters-21578)。
install.packages("tm.corpus.Reuters21578", repos = "http://datacube.wu.ac.at")
library(tm.corpus.Reuters21578)
data(Reuters21578)
这些数据与原始路透社xml文件中的数据相同,但没有编码问题,缺少xml声明等。