Question

全部。我想分析R中几个.txt文件的内容。我在导入它时遇到了麻烦。这是我的代码（data / txt / 2012 /目录中有238个.txt文件）：

library(tm)   
cname <- file.path("../data", "txt", "2012")
docs <- Corpus(DirSource(cname), readerControl=list(reader=readPlain))

现在，如果我在文档中查看一个Vcorpus，其中有238个文件符合预期：

> docs
    <<VCorpus>>
    Metadata:  corpus specific: 0, document level (indexed): 0
    Content:  documents: 238

这是我在理解正在发生的事情时遇到的问题：

> docs[1]
    <<VCorpus>>
    Metadata:  corpus specific: 0, document level (indexed): 0
    Content:  documents: 1

> docs[[1]]
   <<PlainTextDocument>>
   Metadata:  7
   Content:  chars: 2156

我看到它的方式，有两个级别的Vcorpus，第一个包含所有238个文档，第二个包含一个文档。我想只有一个拥有238个文档的Vcorpus，然后是PlainTextDocument，预期输出将是（注意我只使用[1]而不是[[1]]来获取PlainTextDocument）：

> docs[1]
   <<PlainTextDocument>>
   Metadata:  7
   Content:  chars: 2156

有没有办法可以将.txt文件加载到具有所需格式的Vcorpus中？或者我应该使用现在加载的方式？

非常感谢。欢呼声。

Answer 1

在我看来，你已经正确加载了语料库。

tm软件包的介绍文档说你可以使用writeLines(as.character(docs[[4]])）来获取文档4的文本表示。

您也可以使用content(docs[[4]])。

如何正确加载.txt文件到R中的Vcorpus？

1 个答案: