我正在尝试创建两个Document Term Matrices,如下所示:
title_train <- DocumentTermMatrix(title_corpus_train, control = list(dictionary = title_dict))
title_test <- DocumentTermMatrix(title_corpus_test, control = list(dictionary = title_dict))
第一行有75k行,第二行有25k行。由于我创建了这些,我的内存使用量几乎达到了7gb。
我想以更有效的方式加快使用这些矩阵......
我考虑了两种可能性,但我不确定如何实现其中任何一种:
ff
包将其存储为ffdf
任何人都可以提供任何有关如何加快使用大型DocumentTermMatrix的指导或示例吗?
最终,我希望能够支持超过3米的行(我目前只使用100k的子集)。