如何使用鼠标

时间:2017-04-18 19:18:41

标签: r-mice

使用鼠标包我估算了一个数据集,如:

imp< - mice(nhanes)

它为每个变量生成5个插补数据:

小鬼$ $小鬼BMI       1 2 3 4 5 1 35.3 30.1 26.3 28.7 27.2 3 30.1 22.0 30.1 28.7 22.0 4 21.7 27.2 25.5 24.9 21.7 6 24.9 25.5 24.9 27.5 22.5 10 20.4 33.2 26.3 27.2 27.4 11 22.0 27.2 27.2 30.1 22.0 12 27.4 20.4 27.2 27.2 20.4 16 30.1 30.1 27.2 22.5 29.6 21 27.4 27.2 26.3 22.0 30.1

所以我不明白如何选择最佳估算数据。

例如对于bmi(上图),5列中的哪一列将是最佳选择?

谢谢

2 个答案:

答案 0 :(得分:0)

没有最佳数据集。 选择单个数据集只会考虑数据集变异/误差,而不会考虑插入数据集之间的差异。

这就是回归等分析在使用估算数据时应该使用withpool命令的原因。

答案 1 :(得分:0)

小鼠的整个概念是您拥有多个估算数据集

如果您只需要1个估算数据集,则可以使用单一估算包,例如missForest,imputeR,VIM,它们有时在使用/理解语法方面会更容易一些。

像鼠标一样的 Multiple Imputation 包的优点在于,您具有多个估算数据集,可以帮助解决由于执行估算而产生的不确定性。

您将不会使用估算的数据集之一,而是对所有5个(或更多)这些数据集进行分析。

通过这样做,您知道分析结果可能有多大差异。之后,您可以汇总结果。 小鼠可帮助您完成此过程。

典型的鼠标工作流程如下:

    testdata.query('key in ["This", "meaningless"]')