使用R和tm库

时间:2017-02-07 15:02:50

标签: r tm

我的数据框为1400行df我从text列创建了一个语料库:

library(tm)
dc<-Corpus(VectorSource(df$text))

然后我用tfidf加权创建Document term矩阵:

tm<-DocumentTermMatrix(dc,control=list(weighting=weightTfIdf))

我现在想要减少这个数据集,以便对于每个文档我(1)删除0权重(2)的单词选择该文档的10个最重要的单词(最高权重)。

然而

as.data.frame(inspect(tm))

导致错误

  

错误:无法分配大小为1.2 Gb的矢量

那么有关如何操纵tm而不转换它的任何建议?

换句话说,对于每个文档,我想提取具有最高tfidf权重的10个单词。

0 个答案:

没有答案