在使用MICE进行多次插补后,我想为不同的子组生成描述性统计信息。
我有一个数据集,其中包括我估算的药物和年龄。
id <- c(1,2,3,4,5,6,7,8,9,10)
age <- c(60, 80, 70, NA, 49, 30, NA, 59, 79, NA)
medication <- c("yes", "no")
dat <- data.frame(id, age, medication)
imp_1 <- mice(dat, maxit = 0)
meth <- imp_1$method
pred <- imp_1$predictorMatrix
imp <- mice(dat, method = meth, predictorMatrix = pred, maxit = 10, m = 5, seed = 2018)
因此,我使用有关身分证和药物使用的信息估算了年龄的NA(当然,这与估算的质量无关,而只是示例)。
我想计算我在75岁以上和75岁以下的人群中有多少噻嗪类利尿剂使用者。我尝试了两个代码:
subgroup <- with(imp, expr= table(age>75), subset=(medication=="yes"))
withPool_MI(subgroup)
subgroup1 <- with(imp, expr= table(age>75, medication==1))
withPool_MI(subgroup1)
但是,不幸的是,这两个代码都无法正常工作。所以我想要的是以下内容:
0 1
age>75
age<75
我希望填写此表,因此这两个年龄类别中的药物使用者和非使用者人数。有人能帮我吗?
(这是我第一次创建可复制的示例,所以如果它不正确或不起作用,请告诉我!)
答案 0 :(得分:1)
您需要使用sourceDf = spark.read
.option("header","true")
.option("delimiter", ",")
.csv("C:\inputs\TEST.txt")
的{{1}}功能。对于描述性统计信息,我使用complete()
和mice
(都在dplyr
包中)。
tidyr
输出为:
tidyverse
答案 1 :(得分:-1)
我正在处理同一问题,但是如果您使用complete函数,那么您将不会为所有数据集生成描述信息,对吗?因为如果我估算5次,则全部5个都不相同。有没有一种方法可以合并这些结果?