R - 在生成“交互变量”时克服内存限制

时间:2015-09-06 14:41:25

标签: r bigdata

我想运行正则化回归(例如套索)。我的数据集包含50k观测值和500个变量(x1,x2,... x500)。

我正在尝试生成一个矩阵,捕获每个x变量之间的所有可能的交互项(即x1 * x2,x1 * x3 ... x499 * n500)。我认识到这将是一个非常大的矩阵(42k行,125k列),并且鉴于我的变量是连续的,我将无法存储为稀疏矩阵。我用来生成这个矩阵的代码是:

x_interactions <- model.matrix(~.^2, data=x)

不幸的是,看起来R无法将此数量的数据存储在我的机器上的内存中,并且在执行15分钟后收到错误消息,通知我已用完RAM。

我的问题是:(1)是否有更有效的方法来生成这个矩阵,可以在不超出RAM限制的情况下实现,或者 (2)是否有可以使用图形内存或其他方法运行计算的软件包来克服内存限制?

0 个答案:

没有答案