在具有嵌套组的数据框中插入带有零的行

时间:2019-06-04 13:47:02

标签: r dataframe missing-data zero

我有一个带有嵌套组且缺少某些行的数据集:

set.seed(123)
df <- data.frame(Gr1 = rep(c("x", "y"), each = 10),
                 Gr2 = rep(c("x1", "x2", "y1", "y2"), each = 5),
                 ID = paste0(rep(c("x", "y"), each = 10), letters[1:5]),
                 var1 = round(rnorm(20), 2),
                 var2 = round(rnorm(20), 2))

rmv.rows <- sample(1:20, 5)
df <- df[-rmv.rows, ]

   Gr1 Gr2 ID  var1  var2
1    x  x1 xa -0.56 -1.07
3    x  x1 xc  1.56 -1.03
4    x  x1 xd  0.07 -0.73
6    x  x2 xa  1.72 -1.69
7    x  x2 xb  0.46  0.84
9    x  x2 xd -0.69 -1.14
10   x  x2 xe -0.45  1.25
11   y  y1 ya  1.22  0.43
12   y  y1 yb  0.36 -0.30
15   y  y1 ye -0.56  0.82
16   y  y2 ya  1.79  0.69
17   y  y2 yb  0.50  0.55
18   y  y2 yc -1.97 -0.06
19   y  y2 yd  0.70 -0.31
20   y  y2 ye -0.47 -0.38

我想用零填充缺失的行(即Gr1Gr2ID的组合)。

我尝试了建议的方法here,但是它返回Gr1Gr2ID的所有可能组合,而不返回数据中存在的组合。换句话说,我只想插入Gr1Gr2ID的现有组合。所需的输出应为:

   Gr1 Gr2 ID  var1  var2
1    x  x1 xa -0.56 -1.07
2    x  x1 xb  0.00  0.00
3    x  x1 xc  1.56 -1.03
4    x  x1 xd  0.07 -0.73
5    x  x1 xe  0.00  0.00
6    x  x2 xa  1.72 -1.69
7    x  x2 xb  0.46  0.84
8    x  x2 xc  0.00  0.00
9    x  x2 xd -0.69 -1.14
10   x  x2 xe -0.45  1.25
11   y  y1 ya  1.22  0.43
12   y  y1 yb  0.36 -0.30
13   y  y1 yc  0.00  0.00
14   y  y1 yd  0.00  0.00
15   y  y1 ye -0.56  0.82
16   y  y2 ya  1.79  0.69
17   y  y2 yb  0.50  0.55
18   y  y2 yc -1.97 -0.06
19   y  y2 yd  0.70 -0.31
20   y  y2 ye -0.47 -0.38

3 个答案:

答案 0 :(得分:4)

以下是使用sudo apt install idle-python3.5 的选项:

data.table

PS。

对于尚未更新到R 3.6的用户,以下是当前版本R中由OP代码生成的数据:

library(data.table)
setDT(df)
all_comb <- df[, CJ(Gr2, ID, unique = TRUE), by = Gr1]
df_out <- df[all_comb, on = .(Gr1, Gr2, ID)]
df_out[is.na(df_out)] <- 0
df_out

#     Gr1 Gr2 ID  var1  var2
#  1:   x  x1 xa -0.56 -1.07
#  2:   x  x1 xb -0.23 -0.22
#  3:   x  x1 xc  1.56 -1.03
#  4:   x  x1 xd  0.07 -0.73
#  5:   x  x1 xe  0.13 -0.63
#  6:   x  x2 xa  0.00  0.00
#  7:   x  x2 xb  0.00  0.00
#  8:   x  x2 xc  0.00  0.00
#  9:   x  x2 xd -0.69 -1.14
# 10:   x  x2 xe -0.45  1.25
# 11:   y  y1 ya  0.00  0.00
# 12:   y  y1 yb  0.36 -0.30
# 13:   y  y1 yc  0.40  0.90
# 14:   y  y1 yd  0.11  0.88
# 15:   y  y1 ye  0.00  0.00
# 16:   y  y2 ya  1.79  0.69
# 17:   y  y2 yb  0.50  0.55
# 18:   y  y2 yc -1.97 -0.06
# 19:   y  y2 yd  0.70 -0.31
# 20:   y  y2 ye -0.47 -0.38

答案 1 :(得分:2)

我们可以使用complete中的nestingtidyr

library(dplyr)
library(tidyr)

df %>% 
  group_by(Gr1) %>%
  complete(nesting(ID), nesting(Gr2), fill = list(var1 = 0, var2 = 0)) %>%
  arrange(Gr1, Gr2, ID) %>%
  select(Gr1, Gr2, ID, everything())

输出:

# A tibble: 20 x 5
# Groups:   Gr1 [2]
   Gr1   Gr2   ID     var1  var2
   <fct> <fct> <fct> <dbl> <dbl>
 1 x     x1    xa    -0.56 -1.07
 2 x     x1    xb     0     0   
 3 x     x1    xc     1.56 -1.03
 4 x     x1    xd     0.07 -0.73
 5 x     x1    xe     0     0   
 6 x     x2    xa     1.72 -1.69
 7 x     x2    xb     0.46  0.84
 8 x     x2    xc     0     0   
 9 x     x2    xd    -0.69 -1.14
10 x     x2    xe    -0.45  1.25
11 y     y1    ya     1.22  0.43
12 y     y1    yb     0.36 -0.3 
13 y     y1    yc     0     0   
14 y     y1    yd     0     0   
15 y     y1    ye    -0.56  0.82
16 y     y2    ya     1.79  0.69
17 y     y2    yb     0.5   0.55
18 y     y2    yc    -1.97 -0.06
19 y     y2    yd     0.7  -0.31
20 y     y2    ye    -0.47 -0.38

答案 2 :(得分:1)

带有expandleft_join的选项

library(tidyverse)
df %>% 
  group_by(Gr1) %>%
  expand(nesting(ID), nesting(Gr2)) %>% 
  left_join(df) %>%
  mutate_at(vars(var1:var2), replace_na, 0)  %>% 
  arrange(Gr1, Gr2, ID) %>% 
  select(names(df))
# A tibble: 20 x 5
# Groups:   Gr1 [2]
#   Gr1   Gr2   ID     var1  var2
#   <chr> <chr> <chr> <dbl> <dbl>
# 1 x     x1    xa    -0.56 -1.07
# 2 x     x1    xb     0     0   
# 3 x     x1    xc     1.56 -1.03
# 4 x     x1    xd     0.07 -0.73
# 5 x     x1    xe     0     0   
# 6 x     x2    xa     1.72 -1.69
# 7 x     x2    xb     0.46  0.84
# 8 x     x2    xc     0     0   
# 9 x     x2    xd    -0.69 -1.14
#10 x     x2    xe    -0.45  1.25
#11 y     y1    ya     1.22  0.43
#12 y     y1    yb     0.36 -0.3 
#13 y     y1    yc     0     0   
#14 y     y1    yd     0     0   
#15 y     y1    ye    -0.56  0.82
#16 y     y2    ya     1.79  0.69
#17 y     y2    yb     0.5   0.55
#18 y     y2    yc    -1.97 -0.06
#19 y     y2    yd     0.7  -0.31
#20 y     y2    ye    -0.47 -0.38