我正在尝试使用R语言提供的文本挖掘工具,但由于我在旧机器上运行,因此我遇到了以下问题。
我想使用tm包和Corpus函数创建一个Document Term Matrix。 当我创建DTM时,我收到一个错误,可以分配4GB的内存(我的机器有2 GB的内存)。你一般如何面对这样的问题?例如,在一般应用中,DTM应该比我的矩阵大得多。有没有办法使用SQL数据库而不是使用内存?
//我研究过一篇关于使用sqldf库来创建临时sqlite数据库的帖子。但在这种情况下,我甚至无法创建矩阵。
答案 0 :(得分:4)
你一般如何面对这样的问题?
使用sparse matrix data structure。没有它,文本挖掘几乎是不可能的。有了一个,我可以用几百MB来处理100个1000的文档。
我自己不在R中工作,但它必然会在某处有一个稀疏矩阵包。