我目前正在使用R中的小鼠来估算10个大型数据集(首先创建具有0.3,dfpred03
的相关性的预测矩阵),并且遇到了很多类似以下的问题:>
imptest <- mice(df, m=1, maxit = 1, method='cart',predictorMatrix=dfpred03)
iter imp variable
1 1 VAR1 VAR2 VAR3 VAR4Error: cannot allocate vector of size 446 Kb
Error during wrapup: cannot allocate vector of size 3.6 Mb
我知道我必须做出一些让步,但是因为我不确定瓶颈是什么,所以我真的不知道该做出哪些让步。
是否有关于mice
中R
如何使用数据的文档?
我最重要的问题:
编辑:如何调整预测变量矩阵以使插补过程减少内存消耗?我正在考虑将行和列总和都低的变量设置为零,但随后剩下的是NA。我可以做的另一件事是删除那些变量和其他观测值较低的变量。
如果我成功完成了一个数据集的迭代,那是否意味着我可以增加maxit
和m
,因为最大的内存使用是在迭代中?
是否使用最多的内存是因为预测变量的数量或观测值的缺失(以及观测值的数量)?
更一般而言,内存使用量的峰值在哪里?