全部。 我想分析R中几个.txt文件的内容。我在导入它时遇到了麻烦。 这是我的代码(data / txt / 2012 /目录中有238个.txt文件):
library(tm)
cname <- file.path("../data", "txt", "2012")
docs <- Corpus(DirSource(cname), readerControl=list(reader=readPlain))
现在,如果我在文档中查看一个Vcorpus,其中有238个文件符合预期:
> docs
<<VCorpus>>
Metadata: corpus specific: 0, document level (indexed): 0
Content: documents: 238
这是我在理解正在发生的事情时遇到的问题:
> docs[1]
<<VCorpus>>
Metadata: corpus specific: 0, document level (indexed): 0
Content: documents: 1
> docs[[1]]
<<PlainTextDocument>>
Metadata: 7
Content: chars: 2156
我看到它的方式,有两个级别的Vcorpus,第一个包含所有238个文档,第二个包含一个文档。我想只有一个拥有238个文档的Vcorpus,然后是PlainTextDocument,预期输出将是(注意我只使用[1]而不是[[1]]来获取PlainTextDocument):
> docs[1]
<<PlainTextDocument>>
Metadata: 7
Content: chars: 2156
有没有办法可以将.txt文件加载到具有所需格式的Vcorpus中? 或者我应该使用现在加载的方式?
非常感谢。 欢呼声。
答案 0 :(得分:1)
在我看来,你已经正确加载了语料库。
tm软件包的介绍文档说你可以使用writeLines(as.character(docs[[4]])
)来获取文档4的文本表示。
您也可以使用content(docs[[4]])
。