使用`outer`解决我的大正规方程进行最小二乘估计时内存不足

时间:2016-10-03 20:13:36

标签: r out-of-memory regression linear-regression least-squares

考虑R中的以下示例:

x1 <- rnorm(100000)
x2 <- rnorm(100000)
g <- cbind(x1, x2, x1^2, x2^2)
gg <- t(g) %*% g
gginv <- solve(gg)
bigmatrix <- outer(x1, x2, "<=")
Gw <- t(g) %*% bigmatrix
beta <- gginv %*% Gw
w1 <- bigmatrix - g %*% beta

如果我尝试在我的计算机上运行这样的东西,它会抛出一个内存错误(因为bigmatrix太大了。)

你知道如何在不遇到这个问题的情况下实现同样的目标吗?

1 个答案:

答案 0 :(得分:1)

这是一个包含100,000个响应的最小二乘问题。您的bigmatrix是响应(矩阵),beta是系数(矩阵),而w1是残差(矩阵)。

bigmatrix以及w1,如果明确形成,则每个都会花费

(100,000 * 100,000 * 8) / (1024 ^ 3) = 74.5 GB

这太大了。

由于每个响应的估计是独立的,因此实际上不需要一次性形成bigmatrix并尝试将其存储在RAM中。我们可以将其形成为平铺瓦片,并使用迭代过程:形成图块,使用图块,然后丢弃它。例如,下面考虑了一个维度100,000 * 2,000的图块,内存大小为:

(100,000 * 2,000 * 8) / (1024 ^ 3) = 1.5 GB

通过这种迭代过程,内存使用率得到有效控制。

x1 <- rnorm(100000)
x2 <- rnorm(100000)
g <- cbind(x1, x2, x1^2, x2^2)
gg <- crossprod(g)    ## don't use `t(g) %*% g`
## we also don't explicitly form `gg` inverse

## initialize `beta` matrix (4 coefficients for each of 100,000 responses)
beta <- matrix(0, 4, 100000)

## we split 100,000 columns into 50 tiles, each with 2000 columns
for (i in 1:50) {
   start <- 2000 * (i-1) + 1    ## chunk start
   end <- 2000 * i    ## chunk end
   bigmatrix <- outer(x1, x2[start:end], "<=")
   Gw <- crossprod(g, bigmatrix)    ## don't use `t(g) %*% bigmatrix`
   beta[, start:end] <- solve(gg, Gw)
   }

注意,不要尝试计算残差矩阵w1,因为它将花费74.5 GB。如果你在以后的工作中需要残差矩阵,你仍然应该尝试将它分解成瓦片并逐个工作。

这里你不需要担心循环。每次迭代内的计算成本足以分摊循环开销。