使用MNP包时,我对R中的内存使用有疑问。我的目标是估计多项式概率模型,然后使用该模型预测大量数据的选择。我已将预测数据拆分成一个列表。
问题是,当我遍历列表进行预测时,R使用的内存会不断增长,并在达到计算机的最大内存后使用交换空间。即使达到这些边界,也不会释放分配的内存。即使我没有创建任何其他对象,因此我也不知道发生了什么。
下面我粘贴了一个遭受上述问题的示例代码。运行该示例时,内存会不断增长,即使在删除所有变量并调用gc()
后仍保持使用。
我拥有的实际数据远远大于示例中生成的数据,因此我需要找到一种解决方法。
我的问题是:
为什么这个脚本会占用这么多内存?
如何在每一步之后强制R释放分配的内存?
library(MNP)
nr <- 10000
draws <- 500
pieces <- 100
# Create artificial training data
trainingData <- data.frame(y = sample(c(1,2,3), nr, rep = T), x1 = sample(1:nr), x2 = sample(1:nr), x3 = sample(1:nr))
# Create artificial predictor data
predictorData <- list()
for(i in 1:pieces){
predictorData[[i]] <- data.frame(y = NA, x1 = sample(1:nr), x2 = sample(1:nr), x3 = sample(1:nr))
}
# Estimate multinomial probit
mnp.out <- mnp(y ~ x1 + x2, trainingData, n.draws = draws)
# Predict using predictor data
predicted <- list()
for(i in 1:length(predictorData)){
cat('|')
mnp.pred <- predict(mnp.out, predictorData[[i]], type = 'prob')$p
mnp.pred <- colnames(mnp.pred)[apply(mnp.pred, 1, which.max)]
predicted[[i]] <- mnp.pred
rm(mnp.pred)
gc()
}
# Unite output into one string
predicted <- factor(unlist(predicted))
以下是运行脚本后的输出统计信息:
> rm(list = ls())
> gc()
used (Mb) gc trigger (Mb) max used (Mb)
Ncells 158950 8.5 407500 21.8 407500 21.8
Vcells 142001 1.1 33026373 252.0 61418067 468.6
以下是我对R的说明:
> sessionInfo()
R version 2.13.1 (2011-07-08)
Platform: x86_64-apple-darwin9.8.0/x86_64 (64-bit)
locale:
[1] en_US.UTF-8/en_US.UTF-8/C/C/en_US.UTF-8/en_US.UTF-8
attached base packages:
[1] stats graphics grDevices utils datasets methods base
other attached packages:
[1] MNP_2.6-2 MASS_7.3-14
答案 0 :(得分:1)
结果似乎并不异常,因为我不认为这证明了内存泄漏。我怀疑你误读了gc()
中的数据:右边的列是R跟踪内存时使用的最大内存。如果使用gc(reset = TRUE)
,则显示的最大值将是内存在LHS中使用,即“使用”下列出的8.5MB和1.1MB。
我怀疑MNP在预测阶段只消耗了大量内存,所以除了将预测数据分解成更小的行,行数更少之外,没有什么可以做的。
如果您有多个核心,可以考虑使用foreach
软件包以及doSMP
或doMC
,因为这样可以提高独立计算的速度和清除的好处在循环的每次迭代完成后分配的RAM(因为它涉及使用单独的内存空间的R的分支,我相信)。