Question

我发现这个问题已经问了，但没有适当的答案。 R using variable column names in summarise function in dplyr

我想计算两个列均值之间的差，但列名应由变量提供...到目前为止，我仅找到了函数as.name来将列名提供为文本，但这在某种程度上没有实现。在这里工作...

使用固定列名称可以正常工作。

x <- c('a','b')
df <- group_by(data.frame(a=c(1,2,3,4), b=c(2,3,4,5), c=c(1,1,2,2)), c)
df %>% summarise(mean(a) - mean(b))

对于可变列，它不起作用

df %>% summarise(mean(x[1]) - mean(x[2]))
df %>% summarise(mean(as.name(x[1])) - mean(as.name(x[2])))

由于这个问题已经在3年前问过，并且dplyr处于良好的发展之中，所以我想知道现在是否对此有答案。

Answer 1

您可以使用base::get：

df %>% summarise(mean(get(x[1])) - mean(get(x[2])))

# # A tibble: 2 x 2
#        c `mean(a) - mean(b)`
#    <dbl>               <dbl>
# 1     1                  -1
# 2     2                  -1

get将默认在当前环境中搜索。

如错误消息所述，mean需要一个逻辑或数字对象，as.name返回一个名称：

class(as.name("a")) # [1] "name"

您可以评估自己的名字，这样也可以：

df %>% summarise(mean(eval(as.name(x[1]))) - mean(eval(as.name(x[2]))))
# # A tibble: 2 x 2
#       c `mean(eval(as.name(x[1]))) - mean(eval(as.name(x[2])))`
#   <dbl>                                                   <dbl>
# 1     1                                                      -1
# 2     2                                                      -1

在dplyr中使用变量列名称汇总

1 个答案: