Question

我有一些纵向数据，需要根据一些规则来估算缺失值：

如果缺少某人的首次随访数据，则添加下一行的值；
如果缺少某人的非第一笔跟进数据，则添加上一行的值；
如果缺少多个连续的后续数据，则添加上一个非缺失行的值。

这里是一个例子，

dat<-data.frame(id=c(1,1,1,1,1,1,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3),b6=c(NA,1,1,1,1,1,1,1,1,1,NA,3,NA,NA,5,5,5,5,3,NA,NA))
dat_imputed<-data.frame(id=c(1,1,1,1,1,1,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3),b6=c(1,1,1,1,1,1,1,1,1,1,1,3,3,5,5,5,5,5,3,3,3))

谢谢您的建议！

Answer 1

您可以使用approxfun在ave内添加缺失值以进行分组，例如：

dat$b6 <- ave(dat$b6, dat$id, FUN=function(x)
   approxfun(x, method = "constant", rule=2)(seq_along(x)))
identical(dat, dat_imputed)
#[1] TRUE

Answer 2

按ID分组，向下填充值，然后向上填充。我认为这就是您所需要的。

library(dplyr)
library(tidyr)

res <- dat %>% 
  group_by(id) %>% 
  fill(b6, .direction = "down") %>% 
  fill(b6, .direction = "up")

根据R中的上一行或下一行的值在列中添加缺失值

2 个答案: