Question

我发现自己一直在编写这段代码来为组方法产生标准错误（然后用于绘制置信区间）。

但是，编写我自己的函数在一行代码中执行此操作会很好。我已经阅读了dplyr中关于非标准评估的nse小插图以及this blog post。我得到它有些，但我太过于自我了解这个问题。任何人都可以帮忙吗？谢谢。

var1<-sample(c('red', 'green'), size=10, replace=T)
var2<-rnorm(10, mean=5, sd=1)
df<-data.frame(var1, var2)
df %>% 
group_by(var1) %>% 
summarize(avg=mean(var2), n=n(), sd=sd(var2), se=sd/sqrt(n))

Answer 1

您可以使用函数enquo在函数调用中明确命名变量：

my_fun <- function(x, cat_var, num_var){
  cat_var <- enquo(cat_var)
  num_var <- enquo(num_var)

  x %>%
    group_by(!!cat_var) %>%
    summarize(avg = mean(!!num_var), n = n(), 
              sd = sd(!!num_var), se = sd/sqrt(n))
}

给你：

> my_fun(df, var1, var2)
# A tibble: 2 x 5
    var1      avg     n        sd        se
  <fctr>    <dbl> <int>     <dbl>     <dbl>
1  green 4.873617     7 0.7515280 0.2840509
2    red 5.337151     3 0.1383129 0.0798550

并且匹配示例的输出：

> df %>% 
+   group_by(var1) %>% 
+   summarize(avg=mean(var2), n=n(), sd=sd(var2), se=sd/sqrt(n))
# A tibble: 2 x 5
    var1      avg     n        sd        se
  <fctr>    <dbl> <int>     <dbl>     <dbl>
1  green 4.873617     7 0.7515280 0.2840509
2    red 5.337151     3 0.1383129 0.0798550

修改

OP要求从函数中删除group_by语句，以便为group_by添加多个变量的能力。有两种方法可以解决这个IMO问题。首先，您可以简单地删除group_by语句并将分组数据框管道输入到函数中。那种方法看起来像这样：

my_fun <- function(x, num_var){ num_var <- enquo(num_var) x %>% summarize(avg = mean(!!num_var), n = n(), sd = sd(!!num_var), se = sd/sqrt(n)) } df %>% group_by(var1) %>% my_fun(var2)

另一种方法是使用...和quos来允许函数捕获group_by语句的多个参数。这看起来像这样：

#first, build the new dataframe var1<-sample(c('red', 'green'), size=10, replace=T) var2<-rnorm(10, mean=5, sd=1) var3 <- sample(c("A", "B"), size = 10, replace = TRUE) df<-data.frame(var1, var2, var3) # using the first version `my_fun`, it would look like this df %>% group_by(var1, var3) %>% my_fun(var2) # A tibble: 4 x 6 # Groups: var1 [?] var1 var3 avg n sd se <fctr> <fctr> <dbl> <int> <dbl> <dbl> 1 green A 5.248095 1 NaN NaN 2 green B 5.589881 2 0.7252621 0.5128378 3 red A 5.364265 2 0.5748759 0.4064986 4 red B 4.908226 5 1.1437186 0.5114865 # Now doing it with a new function `my_fun2` my_fun2 <- function(x, num_var, ...){ group_var <- quos(...) num_var <- enquo(num_var) x %>% group_by(!!!group_var) %>% summarize(avg = mean(!!num_var), n = n(), sd = sd(!!num_var), se = sd/sqrt(n)) } df %>% my_fun2(var2, var1, var3) # A tibble: 4 x 6 # Groups: var1 [?] var1 var3 avg n sd se <fctr> <fctr> <dbl> <int> <dbl> <dbl> 1 green A 5.248095 1 NaN NaN 2 green B 5.589881 2 0.7252621 0.5128378 3 red A 5.364265 2 0.5748759 0.4064986 4 red B 4.908226 5 1.1437186 0.5114865

Dplyr函数用于计算平均值，n，sd和标准误差

1 个答案: