我正在使用{tm}包,然后使用
生成语料库 corpus = Corpus(VectorSource(sample.words))
然后我想检查语料库中的内容,但它会打印出来而不是文本:
> corpus
<<VCorpus>>
Metadata: corpus specific: 0, document level (indexed): 0
Content: documents: 3933
现在我找到了一些方法来研究corpus
,然后我开始想知道在输入对象时究竟是什么R打印?
> class(corpus)
[1] "VCorpus" "Corpus"
> typeof(corpus)
[1] "list"
为什么它不喜欢其他普通列表,打印它的列和行?这对 class 属性有什么作用吗?
我是R的新手并且不熟悉一些基本概念,感谢您的耐心等待!
答案 0 :(得分:0)
tm
包的介绍文档说明您可以使用writeLines(as.character(mycorpus[[4]]))
来获取文档4的文本表示。
您也可以使用content(myCorpus[[23]])
。
要阅读介绍文档,请在R提示符下输入browseVignettes()
,然后在将打开的浏览器窗口中搜索该文档。