如何正确加载.txt文件到R中的Vcorpus?

时间:2016-01-13 14:43:30

标签: r text-mining tm corpus

全部。 我想分析R中几个.txt文件的内容。我在导入它时遇到了麻烦。 这是我的代码(data / txt / 2012 /目录中有238个.txt文件):

library(tm)   
cname <- file.path("../data", "txt", "2012")
docs <- Corpus(DirSource(cname), readerControl=list(reader=readPlain))

现在,如果我在文档中查看一个Vcorpus,其中有238个文件符合预期:

> docs
    <<VCorpus>>
    Metadata:  corpus specific: 0, document level (indexed): 0
    Content:  documents: 238

这是我在理解正在发生的事情时遇到的问题:

> docs[1]
    <<VCorpus>>
    Metadata:  corpus specific: 0, document level (indexed): 0
    Content:  documents: 1

> docs[[1]]
   <<PlainTextDocument>>
   Metadata:  7
   Content:  chars: 2156

我看到它的方式,有两个级别的Vcorpus,第一个包含所有238个文档,第二个包含一个文档。我想只有一个拥有238个文档的Vcorpus,然后是PlainTextDocument,预期输出将是(注意我只使用[1]而不是[[1]]来获取PlainTextDocument):

> docs[1]
   <<PlainTextDocument>>
   Metadata:  7
   Content:  chars: 2156

有没有办法可以将.txt文件加载到具有所需格式的Vcorpus中? 或者我应该使用现在加载的方式?

非常感谢。 欢呼声。

1 个答案:

答案 0 :(得分:1)

在我看来,你已经正确加载了语料库。

tm软件包的介绍文档说你可以使用writeLines(as.character(docs[[4]]))来获取文档4的文本表示。

您也可以使用content(docs[[4]])