MICE多重插补数据集。

时间:2018-05-15 13:38:09

标签: r missing-data r-mice

关于乘法估算数据集数量的效用,我有多个问题" m"。我所理解的是,鼠标将重复数次集中缺失值的插补过程m次。

1)小鼠是否考虑上一步的估算,因此每一步都接近最终收敛,或者每一步是否完全相互独立?

2)如果每个步骤彼此独立,那么为插补目的设置多个估算数据集有什么意义?

在解释鼠标的论文中,有一个方案显示了多个插补步骤enter image description here

我想我们对推算数据设置越多,最好的是当我们想要汇总结果时,然而分析结果步骤意味着创建一个可能的预测模型:

#build predictive model
fit <- with(data = imp, lm(y ~ x + z))

如果在我的数据集中我没有任何预测列或标签,会发生什么?实际上,我的数据集包含基因组学测量,它们都是独立的。如何汇总结果,或者在不经过预测步骤的情况下组合m个推算数据集?

最佳,

巴巴

1 个答案:

答案 0 :(得分:1)

很好,您有这些问题。多重插补经常被误解。关于如何对丢失的数据进行分析,这比一个只为您提供一个不丢失值的数据集的算法更完整的概念。

1)小鼠是否考虑了上一步的推定,因此每个步骤最终趋于收敛,或者每个步骤彼此完全独立?

不,没有收敛。 m个估算数据集中没有一个具有“更好”的估算值。

2)如果每个步骤彼此独立,那么为插补目的具有多个插补数据集的意义何在?

重点是为插补过程的不确定性建模。如果在一个估算数据集中将NA值替换为仅仅是5,这绝不是全部事实……更准确的陈述可能是这样的:该值可能在4到6之间...

鲁宾的这篇论文很有趣:https://www.jstor.org/stable/2291635