将列名作为字符串传递给group_by并在dplyr中汇总

时间:2017-10-24 19:18:09

标签: r dplyr summarize rlang quosure

使用dplyr启动版本0.7时,不推荐使用以下划线结尾的方法,例如summarize_group_by_,因为我们应该使用quosures。

请参阅: https://cran.r-project.org/web/packages/dplyr/vignettes/programming.html

我正在尝试使用quo和!!来实现以下示例

工作示例:

df <- data.frame(x = c("a","a","a","b","b","b"), y=c(1,1,2,2,3,3), z = 1:6)

lFG <- df %>% 
   group_by( x,y) 
lFG %>% summarize( min(z))

但是,在这种情况下,我需要实现要分组的列,并将汇总指定为字符串。

cols2group <- c("x","y")
col2summarize <- "z"

如何获得与上述相同的示例?

4 个答案:

答案 0 :(得分:6)

为此,您现在可以使用动词的_at版本

df %>%  
  group_by_at(cols2group) %>% 
  summarize_at(.vars = col2summarize, .funs = min)

答案 1 :(得分:3)

dplyr 1.0.0 开始,您可以使用 across :

library(dplyr)

cols2group <- c("x","y")
col2summarize <- "z"

df %>%
  group_by(across(all_of(cols2group))) %>%
  summarise(across(all_of(col2summarize), min)) %>%
  ungroup

#   x       y     z
#  <chr> <dbl> <int>
#1 a         1     1
#2 a         2     3
#3 b         2     4
#4 b         3     5

答案 2 :(得分:1)

请参阅 ?dplyr::across 以了解执行此操作的更新方法,因为 group_by_at 和 summary_at 现在已被取代

答案 3 :(得分:0)

另一种选择是使用非标准评估(NSE),并让R将字符串解释为对象的带引号的名称:

cols2group <- c("x","y")
col2summarize <- "z"

df %>%  
  group_by(!!rlang::sym(cols2group)) %>% 
  summarize(min(!!rlang::sym(col2summarize)))

rlang::sym()函数将字符串转换为引号,而引号又不再被!!引用,并在df的上下文中用作引用相关列的名称。和往常一样,做同一件事的方式有很多,这是我倾向于使用的速记!