有效/多线程运行回归预测

时间:2016-06-27 19:11:08

标签: r parallel-foreach mclapply

我知道有很多关于mclapply内存消耗问题的帖子,但我仍然试图了解是否有任何可以帮助我解决问题的内容。

我将随机森林模型拟合到~600乘60,000(变量矩阵X的响应y)矩阵:

library(randomForest)
fit <- randomForest(x=X,y=y)

然后,我想比较适合随机拟合,以及我正在做的是:

library(parallel)
set.seed(1)
random.list <- mclapply(1:1000,function(f){
  idx <- shuffle(nrow(X))
  random.y <- predict(object=fit,newdata=X[idx,],type="response")
}, mc.cores = ncores)

不幸的是,这太耗费内存(需要超过100GB),这使得它不切实际。

BTW我正在运行的环境是Linux。

有什么建议吗?

1 个答案:

答案 0 :(得分:0)

似乎mclapply2 {snpEnrichment}是一个合理的毫不费力的解决方案