我正在使用R进行文本分析,并使用 tm 库创建了一个TermDocumentMatrix,获得了以下特征的 dtm 对象:
<<DocumentTermMatrix (documents: 16405, terms: 13002796)>>
Non-/sparse entries: 46650312/213264218068
Sparsity : 100%
Maximal term length: 2179
Weighting : term frequency (tf)
大小为1.5 Gb。现在,我想获得单词的频率,为此我必须使用以下命令将 tdm 转换为矩阵:
freq <- colSums(as.matrix(dtm))
但是当我调用该函数时,程序会响应以下异常:
Error: cannot allocate vector of size 1589.3 Gb
首先,为什么程序需要1589.3 Gb才能存储大小为1.5 Gb的dtm?第二,我该如何解决问题?谢谢大家。