包MICE中的预测均值匹配(pmm)是否仅使用没有任何缺失数据的行来估计其系数?

时间:2017-08-02 14:16:36

标签: r imputation r-mice

我有一个数据框,其中包含不同地点(15个地点)和处理(浏览与未浏览)的连续5年不同植物的丰度(每年1个值;从T2到T6)。 T2到T6在列中,我有一列指定物种。

对于某些网站,T5系统性缺失。对于其他站点,T4和T6都丢失了。 T2和T3适用于所有站点。

这是一个虚构的例子:

> data = matrix(c(0.02, 0.02, 0.03, NA, 0.06,
+               0.01, 0.04, NA, 0.03, NA,
+               0.11, 0.12, 0.14, NA, 0.19,
+               0.06, 0.04, NA, 0, NA,
+               0.22, 0.26, 0.34, NA, 0.46),5,5, byrow=TRUE)
> colnames(data) = c("T2", "T3", "T4", "T5", "T6")
> data = as.data.frame(data)
> data$species = c("Abibal", "Abibal", "Abibal", "Rubida", "Rubida")
> data
    T2   T3   T4   T5   T6 species
1 0.02 0.02 0.03   NA 0.06  Abibal
2 0.01 0.04   NA 0.03   NA  Abibal
3 0.11 0.12 0.14   NA 0.19  Abibal
4 0.06 0.04   NA 0.00   NA  Rubida
5 0.22 0.26 0.34   NA 0.46  Rubida

因此,没有任何行不包含任何NA。

由于数据系统性丢失,但丢失的可能性与数据值无关,我认为数据是随机丢失(MAR)。

现在,我想使用mouse()和预测均值匹配来估算我丢失的数据。我第一次运行它并没有遇到任何错误。但是,在仔细查看插补数据时,我遇到了一些奇怪的估算数据。

在尝试更好地理解预测平均匹配背后的机制时,我读到该函数首先通过估计没有丢失数据的情况的线性回归来开始。

这是否意味着该函数仅使用不丢失数据的行来估计其系数?或者,例如,当函数试图为T5计算值时,它只使用T5没有丢失数据的行来估计他的系数?

此外,在估算系数时,该函数如何考虑定性变量(如“物种”)?它是否单独估算“物种”每个值的系数?

对此事的任何帮助,或者在我的案例中以最佳方式归档数据的行为都表示赞赏。

非常感谢,

劳伦

0 个答案:

没有答案