r中的语料库方法

时间:2017-02-12 14:02:19

标签: r corpus

我是R.的新手。我正在尝试了解Corpus()方法。

这是我写的代码。

library(tm)
my_obj<-"learning about corpus method"
corp<-Corpus(VectorSource(my_obj))
corp

我认为此代码的输出应该是Corpus方法准备的结构化文本。但输出是: -

<<VCorpus>>
Metadata:  corpus specific: 0, document level (indexed): 0
Content:  documents: 1

有人可以解释语料库方法在 R 中的作用吗?

1 个答案:

答案 0 :(得分:0)

语料库方法制作文本集合(在NLP中称为语料库),使用户能够在其上使用大量文本挖掘功能,例如tm-map函数可以删除标点,停止单词,空格,数字...... ,您可以使用语料库上的DocumentTermMatix函数计算语料库中每个文档的术语频率。