Question

我有一个数据框，其中包含不同地点（15个地点）和处理（浏览与未浏览）的连续5年不同植物的丰度（每年1个值;从T2到T6）。 T2到T6在列中，我有一列指定物种。

对于某些网站，T5系统性缺失。对于其他站点，T4和T6都丢失了。 T2和T3适用于所有站点。

这是一个虚构的例子：

> data = matrix(c(0.02, 0.02, 0.03, NA, 0.06,
+               0.01, 0.04, NA, 0.03, NA,
+               0.11, 0.12, 0.14, NA, 0.19,
+               0.06, 0.04, NA, 0, NA,
+               0.22, 0.26, 0.34, NA, 0.46),5,5, byrow=TRUE)
> colnames(data) = c("T2", "T3", "T4", "T5", "T6")
> data = as.data.frame(data)
> data$species = c("Abibal", "Abibal", "Abibal", "Rubida", "Rubida")
> data
    T2   T3   T4   T5   T6 species
1 0.02 0.02 0.03   NA 0.06  Abibal
2 0.01 0.04   NA 0.03   NA  Abibal
3 0.11 0.12 0.14   NA 0.19  Abibal
4 0.06 0.04   NA 0.00   NA  Rubida
5 0.22 0.26 0.34   NA 0.46  Rubida

因此，没有任何行不包含任何NA。

由于数据系统性丢失，但丢失的可能性与数据值无关，我认为数据是随机丢失（MAR）。

现在，我想使用mouse（）和预测均值匹配来估算我丢失的数据。我第一次运行它并没有遇到任何错误。但是，在仔细查看插补数据时，我遇到了一些奇怪的估算数据。

在尝试更好地理解预测平均匹配背后的机制时，我读到该函数首先通过估计没有丢失数据的情况的线性回归来开始。

这是否意味着该函数仅使用不丢失数据的行来估计其系数？或者，例如，当函数试图为T5计算值时，它只使用T5没有丢失数据的行来估计他的系数？

此外，在估算系数时，该函数如何考虑定性变量（如“物种”）？它是否单独估算“物种”每个值的系数？

对此事的任何帮助，或者在我的案例中以最佳方式归档数据的行为都表示赞赏。

非常感谢，

劳伦

包MICE中的预测均值匹配（pmm）是否仅使用没有任何缺失数据的行来估计其系数？

0 个答案: