在dplyr group_by中选择减运算符

时间:2016-03-28 16:44:37

标签: r dplyr

有没有人知道一种快速的方法来选择“除了一个人”之外的所有人。 (或{39})使用dplyr::group_by时的列?或者#39;除了少数')列? 最后,我只想在删除一些选择列后聚合所有不同的行,但我不想每次都必须明确列出所有分组列(因为在我的分析中经常添加和删除这些列)

示例:

 > df <- data_frame(a = c(1,1,2,2), b = c("foo", "foo", "bar", "bar"), c = runif(4))
 > df
 Source: local data frame [4 x 3]

       a     b          c
   (dbl) (chr)      (dbl)
 1     1   foo 0.95460749
 2     1   foo 0.05094088
 3     2   bar 0.93032589
 4     2   bar 0.40081121

现在我想按ab汇总,所以我可以这样做:

 > df %>% group_by(a, b) %>% summarize(mean(c))
 Source: local data frame [2 x 3]
 Groups: a [?]

       a     b   mean(c)
   (dbl) (chr)     (dbl)
 1     1   foo 0.5027742
 2     2   bar 0.6655686

大。 但是,我真的喜欢能够做一些事情,比如指定 c,类似于dplyr::select(-c)

 > df %>% select(-c)
 Source: local data frame [4 x 2]

       a     b
   (dbl) (chr)
 1     1   foo
 2     1   foo
 3     2   bar
 4     2   bar

但是group_by可以应用表达式,因此等效的不起作用:

 > df %>% group_by(-c) %>% summarize(mean(c))
 Source: local data frame [4 x 2]

            -c    mean(c)
         (dbl)      (dbl)
 1 -0.95460749 0.95460749
 2 -0.93032589 0.93032589
 3 -0.40081121 0.40081121
 4 -0.05094088 0.05094088

任何人都知道我是否错过了一个基本功能或快捷方式来帮助我快速完成这项工作?

示例用例:如果df突然获得新列d,我希望下游代码现在可以通过a,{{1}的唯一组合进行汇总}, b,我无需在d来电中明确添加d。)

1 个答案:

答案 0 :(得分:1)

在当前版本的dplyr中,函数group_by_atvars一起实现了这一目标:

df %>% group_by_at(vars(-c)) %>% summarize(mean(c))
# A tibble: 2 x 3
# Groups:   a [?]
      a     b  `sum(c)`
  <dbl> <chr>     <dbl>
1     1   foo 0.9851376
2     2   bar 1.0954412

似乎已于2017年6月在dplyr 0.7.0中引入