我的数据框为1400行df
我从text
列创建了一个语料库:
library(tm)
dc<-Corpus(VectorSource(df$text))
然后我用tfidf加权创建Document term矩阵:
tm<-DocumentTermMatrix(dc,control=list(weighting=weightTfIdf))
我现在想要减少这个数据集,以便对于每个文档我(1)删除0权重(2)的单词选择该文档的10个最重要的单词(最高权重)。
然而
as.data.frame(inspect(tm))
导致错误
错误:无法分配大小为1.2 Gb的矢量
那么有关如何操纵tm
而不转换它的任何建议?
换句话说,对于每个文档,我想提取具有最高tfidf权重的10个单词。