使用鼠标包我估算了一个数据集,如:
imp< - mice(nhanes)
它为每个变量生成5个插补数据:
小鬼$ $小鬼BMI 1 2 3 4 5 1 35.3 30.1 26.3 28.7 27.2 3 30.1 22.0 30.1 28.7 22.0 4 21.7 27.2 25.5 24.9 21.7 6 24.9 25.5 24.9 27.5 22.5 10 20.4 33.2 26.3 27.2 27.4 11 22.0 27.2 27.2 30.1 22.0 12 27.4 20.4 27.2 27.2 20.4 16 30.1 30.1 27.2 22.5 29.6 21 27.4 27.2 26.3 22.0 30.1
所以我不明白如何选择最佳估算数据。
例如对于bmi(上图),5列中的哪一列将是最佳选择?
谢谢
答案 0 :(得分:0)
没有最佳数据集。 选择单个数据集只会考虑数据集变异/误差,而不会考虑插入数据集之间的差异。
这就是回归等分析在使用估算数据时应该使用with
和pool
命令的原因。
答案 1 :(得分:0)
小鼠的整个概念是您拥有多个估算数据集。
如果您只需要1个估算数据集,则可以使用单一估算包,例如missForest,imputeR,VIM,它们有时在使用/理解语法方面会更容易一些。
像鼠标一样的 Multiple Imputation 包的优点在于,您具有多个估算数据集,可以帮助解决由于执行估算而产生的不确定性。
您将不会使用估算的数据集之一,而是对所有5个(或更多)这些数据集进行分析。
通过这样做,您知道分析结果可能有多大差异。之后,您可以汇总结果。 小鼠可帮助您完成此过程。
典型的鼠标工作流程如下:
testdata.query('key in ["This", "meaningless"]')