带有鼠标/滑鼠的描述性数据

时间:2019-04-30 17:49:18

标签: r imputation r-mice

我用过mouse / miceadds来进行多次归因。我有兴趣在“汇总数据集”上获取大量描述性统计信息

问题: 1)我想知道估算变量中高于特定值的值的百分比。例如,当汇总所有估算的数据集时,有多少个案例的值大于5(范围为0-10)。 MI数据是否可行?

2)如果#1不可能,那么还有替代方案吗?

2 个答案:

答案 0 :(得分:0)

您可能做的事情与此类似:

# create imputed datasets
imp <- mice(nhanes, m = 5)
#perform lm on all imputed datasets
fit <- with(data = imp, exp = lm(bmi ~ hyp + chl))
#pool results
summary(pool(fit))

因此,您可以得到lm模型的合并结果。 我想您想知道,推算数据是如何进入模型的。

估算的数据实际上在'imp'变量中。 使用imp $ imp,您将获得为每个m估算的值。 然后,您可以对它们执行所需的分析。

如果您需要完整的数据集(不仅是推定值),那么您将执行

complete(imp, action ="all")

或者如果您只想要特定的完整数据集m:

complete(imp, action =2)

例如然后您可以输入

summary(complete(imp, action =2))

获取有关第二个估算数据集的摘要统计信息。

答案 1 :(得分:0)

另一种简单的方法是创建“长格式”完整数据集,并简单地计算所有估算数据集的均值,中位数或比例。由于鲁宾的规则规定您的最佳估计是所有估算的平均值,因此应该可以得出适当的结果。唯一的缺点是您将无法获得这些统计信息的标准误差的估计值。

impL <- complete(imp,"long",include = F) # long format without the original dataset
mean(impL$x) # Mean of variable x over all datasets
sum(impL$y > 5)/length(impL$y) # proportion of variable y higher than 1 over all datasets

请注意,如果您想估算频率(即案例数)而不是比例,则需要除以估算数据集的数量(例如5)

sum(impL$y > 5)/5