应用错误收集

文本挖掘包含太多数据

时间：2013-09-19 12:12:26

标签： r matrix text-mining

我正在尝试使用R语言提供的文本挖掘工具，但由于我在旧机器上运行，因此我遇到了以下问题。

我想使用tm包和Corpus函数创建一个Document Term Matrix。当我创建DTM时，我收到一个错误，可以分配4GB的内存（我的机器有2 GB的内存）。你一般如何面对这样的问题？例如，在一般应用中，DTM应该比我的矩阵大得多。有没有办法使用SQL数据库而不是使用内存？

//我研究过一篇关于使用sqldf库来创建临时sqlite数据库的帖子。但在这种情况下，我甚至无法创建矩阵。

1 个答案:

答案 0 :(得分：4)

你一般如何面对这样的问题？

使用sparse matrix data structure。没有它，文本挖掘几乎是不可能的。有了一个，我可以用几百MB来处理100个1000的文档。

我自己不在R中工作，但它必然会在某处有一个稀疏矩阵包。