Question

使用鼠标包我估算了一个数据集，如：

imp＆lt; - mice（nhanes）

它为每个变量生成5个插补数据：

小鬼$ $小鬼BMI 1 2 3 4 5 1 35.3 30.1 26.3 28.7 27.2 3 30.1 22.0 30.1 28.7 22.0 4 21.7 27.2 25.5 24.9 21.7 6 24.9 25.5 24.9 27.5 22.5 10 20.4 33.2 26.3 27.2 27.4 11 22.0 27.2 27.2 30.1 22.0 12 27.4 20.4 27.2 27.2 20.4 16 30.1 30.1 27.2 22.5 29.6 21 27.4 27.2 26.3 22.0 30.1

所以我不明白如何选择最佳估算数据。

例如对于bmi（上图），5列中的哪一列将是最佳选择？

谢谢

Answer 1

没有最佳数据集。选择单个数据集只会考虑数据集变异/误差，而不会考虑插入数据集之间的差异。

这就是回归等分析在使用估算数据时应该使用with和pool命令的原因。

Answer 2

小鼠的整个概念是您拥有多个估算数据集。

如果您只需要1个估算数据集，则可以使用单一估算包，例如missForest，imputeR，VIM，它们有时在使用/理解语法方面会更容易一些。

像鼠标一样的 Multiple Imputation 包的优点在于，您具有多个估算数据集，可以帮助解决由于执行估算而产生的不确定性。

您将不会使用估算的数据集之一，而是对所有5个（或更多）这些数据集进行分析。

通过这样做，您知道分析结果可能有多大差异。之后，您可以汇总结果。小鼠可帮助您完成此过程。

典型的鼠标工作流程如下：

    testdata.query('key in ["This", "meaningless"]')

如何使用鼠标

2 个答案: