应用错误收集

我正在尝试创建两个Document Term Matrices，如下所示：

title_train <- DocumentTermMatrix(title_corpus_train, control = list(dictionary = title_dict))
title_test <- DocumentTermMatrix(title_corpus_test, control = list(dictionary = title_dict))

第一行有75k行，第二行有25k行。由于我创建了这些，我的内存使用量几乎达到了7gb。

我想以更有效的方式加快使用这些矩阵......

我考虑了两种可能性，但我不确定如何实现其中任何一种：

将DocumentTermMatrix转换为data.table
使用ff包将其存储为ffdf

任何人都可以提供任何有关如何加快使用大型DocumentTermMatrix的指导或示例吗？

最终，我希望能够支持超过3米的行（我目前只使用100k的子集）。

DocumentTermMatrix的性能问题

0 个答案: