从另一个变量(R,MICE)估算稀疏数据集

时间:2018-09-21 18:16:44

标签: r normalization imputation r-mice

我有一个因变量时间序列变量(每月水位),与第二变量(每月降水量)非常相关。这可以通过分析我们有许多长期观测值(n> 500)的位置来显示。出于我的目的,我们将假定因变量的变化等于自变量的变化。

鉴于这种关系,我想预测已知降水的水位,但是历史上几乎没有观察到水位……说n = 5左右。使用R中的MICE软件包,我随机选择了长期水位数据的小样本,并使用z得分估算了缺失变量,而没有缺失记录。

mice(subset, method = "norm", maxit = 200)

当随机样本达到均值以上和以下的良好观察范围时,效果很好(甚至令人惊讶)。 imputed data - n=5 - good fit

当随机样本仅在均值的一侧命中观测值时,一切都会陷入地狱。 imputed data - n=5 - poor fit

我知道我可以通过增加n来提高拟合度,但是重点是要尝试估算稀疏数据集。我觉得好像在这种推论中遗漏了一些东西,但并不能完全说明预测变量是一组z得分,该z得分已经包含有关数据的均值和SD的信息。

我想改善或限制插补,以使插补结果的z得分与降水z得分相似。

MICE可能不是执行此操作的最佳方法,因此我愿意接受任何建议。

0 个答案:

没有答案