小鼠的R模拟和回归()

时间:2015-01-28 14:23:19

标签: r simulation regression missing-data r-mice

我正在使用R中的鼠标包进行多次插补并尝试理解其背后的算法。

从其文档http://www.jstatsoft.org/v45/i03/paper开始,据说使用了MICE算法。根据我的理解,它使用Gibbs Sampler执行MCMC,其中模拟参数BETA,其定义Y的条件分布(具有缺失值的变量)给定Y-(所有其他变量没有Y)。使用模拟的BETA,定义相应的条件分布。然后它从条件分布中绘制值并用它替换缺失值。它在具有缺失值的所有变量上重复该过程。

然而,我不明白的是,回归发生在哪里?在mice()函数中,我们需要指定'方法'参数。例如,' logreg'对于二项分布式变量和' polyreg'因子变量超过2级。如果MCMC完成估算,为什么我们需要指定回归?

有些文档表明MICE算法在缺少模式的所有变量上迭代地运行回归。每次,一个缺失的变量是响应变量,所有其他变量都是解释变量。然后使用拟合值替换缺失并移动到缺少的下一个变量。下一个回归将包括上次回归的推算数据。这与Gibbs采样器的方案相同,但似乎没有模拟。详情请见http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3074241/

有人能帮我理解R中老鼠的真实情况吗?

1 个答案:

答案 0 :(得分:2)

对于具有缺失数据的每个变量(Y1,...,Yj,... Yk),MICE算法适合所有其他变量(Yj-或其子集)的统计模型条件Yj。 统计模型的类型由method表示。 这是"回归"。 在给定Yj-的情况下,拟合模型用于绘制Yj的缺失部分的替换。然后,算法继续执行包含缺失值的下一个变量。

填充完所有变量后,算法重新开始。

注意,在拟合模型时,MICE算法在Yj-的观察到的插补部分上对Yj的观察到的部分进行回归。 换句话说,在每次迭代时,回归模型对不同的预测值集合进行调节(因此通常需要多于一次的迭代)。这与MI的其他实现略有不同。

另请注意,MICE算法不是正式的Gibbs采样器(参见Carpenter和Kenward撰写的精心编写的讨论,2013)。