将缺少的时间行插入数据帧

时间:2015-06-30 23:08:11

标签: r time-series missing-data

假设我有一个数据框:

df <- data.frame(group = c('A','A','A','B','B','B'), 
                 time = c(1,2,4,1,2,3),
                 data = c(5,6,7,8,9,10))

我想要做的是将数据插入序列中缺少的数据框中。所以在上面的例子中,我缺少A组的time = 3和B组的time = 4的数据。我基本上想把0放在{{1的位置列。

我如何添加这些额外的行?

目标是:

data

我的真实数据是几千个数据点,因此无法手动执行此操作。

1 个答案:

答案 0 :(得分:6)

您可以尝试merge/expand.grid

 res <- merge(
          expand.grid(group=unique(df$group), time=unique(df$time)),
                                     df, all=TRUE)
 res$data[is.na(res$data)] <- 0
 res
 #  group time data
 #1     A    1    5
 #2     A    2    6
 #3     A    3    0
 #4     A    4    7
 #5     B    1    8
 #6     B    2    9
 #7     B    3   10
 #8     B    4    0

或使用data.table

 library(data.table)
 setkey(setDT(df), group, time)[CJ(group=unique(group), time=unique(time))
                     ][is.na(data), data:=0L]
 #    group time data
 #1:     A    1    5
 #2:     A    2    6
 #3:     A    3    0
 #4:     A    4    7
 #5:     B    1    8
 #6:     B    2    9
 #7:     B    3   10
 #8:     B    4    0

更新

正如@thelatemail在评论中提到的,如果所有组中都没有特定的“时间”值,则上述方法将失败。可能这会更普遍。

 res <- merge(
          expand.grid(group=unique(df$group), 
                      time=min(df$time):max(df$time)),
                                     df, all=TRUE)
 res$data[is.na(res$data)] <- 0

同样在data.table解决方案中将time=unique(time)替换为time= min(time):max(time)