我有一个数据框,其中包含不同地点(15个地点)和处理(浏览与未浏览)的连续5年不同植物的丰度(每年1个值;从T2到T6)。 T2到T6在列中,我有一列指定物种。
对于某些网站,T5系统性缺失。对于其他站点,T4和T6都丢失了。 T2和T3适用于所有站点。
这是一个虚构的例子:
> data = matrix(c(0.02, 0.02, 0.03, NA, 0.06,
+ 0.01, 0.04, NA, 0.03, NA,
+ 0.11, 0.12, 0.14, NA, 0.19,
+ 0.06, 0.04, NA, 0, NA,
+ 0.22, 0.26, 0.34, NA, 0.46),5,5, byrow=TRUE)
> colnames(data) = c("T2", "T3", "T4", "T5", "T6")
> data = as.data.frame(data)
> data$species = c("Abibal", "Abibal", "Abibal", "Rubida", "Rubida")
> data
T2 T3 T4 T5 T6 species
1 0.02 0.02 0.03 NA 0.06 Abibal
2 0.01 0.04 NA 0.03 NA Abibal
3 0.11 0.12 0.14 NA 0.19 Abibal
4 0.06 0.04 NA 0.00 NA Rubida
5 0.22 0.26 0.34 NA 0.46 Rubida
因此,没有任何行不包含任何NA。
由于数据系统性丢失,但丢失的可能性与数据值无关,我认为数据是随机丢失(MAR)。
现在,我想使用mouse()和预测均值匹配来估算我丢失的数据。我第一次运行它并没有遇到任何错误。但是,在仔细查看插补数据时,我遇到了一些奇怪的估算数据。
在尝试更好地理解预测平均匹配背后的机制时,我读到该函数首先通过估计没有丢失数据的情况的线性回归来开始。
这是否意味着该函数仅使用不丢失数据的行来估计其系数?或者,例如,当函数试图为T5计算值时,它只使用T5没有丢失数据的行来估计他的系数?
此外,在估算系数时,该函数如何考虑定性变量(如“物种”)?它是否单独估算“物种”每个值的系数?
对此事的任何帮助,或者在我的案例中以最佳方式归档数据的行为都表示赞赏。
非常感谢,
劳伦