DocumentTermMatrix的性能问题

时间:2014-07-10 16:54:29

标签: r performance data.table ff

我正在尝试创建两个Document Term Matrices,如下所示:

title_train <- DocumentTermMatrix(title_corpus_train, control = list(dictionary = title_dict))
title_test <- DocumentTermMatrix(title_corpus_test, control = list(dictionary = title_dict))

第一行有75k行,第二行有25k行。由于我创建了这些,我的内存使用量几乎达到了7gb。

我想以更有效的方式加快使用这些矩阵......

我考虑了两种可能性,但我不确定如何实现其中任何一种:

  • 将DocumentTermMatrix转换为data.table
  • 使用ff包将其存储为ffdf

任何人都可以提供任何有关如何加快使用大型DocumentTermMatrix的指导或示例吗?

最终,我希望能够支持超过3米的行(我目前只使用100k的子集)。

0 个答案:

没有答案