在函数中使用dplyr,非标准评估

时间:2016-10-13 09:47:27

标签: r dplyr nse

试图绕过Non-Standard Evaluation as used by dplyr,但没有成功。我喜欢一个简短的函数,它返回一组指定变量的汇总统计数据(N,mean,sd,median,IQR,min,max)。

我的功能简化版......

my_summarise <- function(df = temp,
                         to.sum = 'eg1',
                         ...){
    ## Summarise
    results <- summarise_(df,
                          n = ~n(),
                          mean = mean(~to.sum, na.rm = TRUE))
    return(results)
}

用一些虚拟数据运行它......

set.seed(43290)
temp <- cbind(rnorm(n = 100, mean = 2, sd = 4),
              rnorm(n = 100, mean = 3, sd = 6)) %>% as.data.frame()
names(temp) <- c('eg1', 'eg2')
mean(temp$eg1)
  [1] 1.881721
mean(temp$eg2)
  [1] 3.575819
my_summarise(df = temp, to.sum = 'eg1')
    n mean
1 100   NA

N是计算出来的,但是平均值不是,不能弄明白为什么。

最终,我希望我的功能更加通用,符合......

my_summarise <- function(df = temp,
                         group.by = 'group'
                         to.sum = c('eg1', 'eg2'),
                         ...){
    results <- list()
    ## Select columns
    df <- dplyr::select_(df, .dots = c(group.by, to.sum))
    ## Summarise overall
    results$all <- summarise_each(df,
                                  funs(n = ~n(),
                                       mean = mean(~to.sum, na.rm = TRUE)))
    ## Summarise by specified group
    results$by.group <- group_by_(df, ~to.group) %>%
                        summarise_each(df,
                                       funs(n = ~n(),
                                       mean = mean(~to.sum, na.rm = TRUE)))        
    return(results)
}

...但在我进入这个更复杂的版本(我使用this example作为指导)之前,我需要首先在简单版本中进行评估,因为那是绊脚石,对{的调用{1}}工作正常。

对我出错的地方表示任何建议。

提前致谢

1 个答案:

答案 0 :(得分:7)

基本的想法是你必须自己构建适当的调用,最容易用lazyeval包完成。

在这种情况下,您希望以编程方式创建一个看起来像~mean(eg1, na.rm = TRUE)的调用。这是如何:

my_summarise <- function(df = temp,
                         to.sum = 'eg1',
                         ...){
  ## Summarise
  results <- summarise_(df,
                        n = ~n(),
                        mean = lazyeval::interp(~mean(x, na.rm = TRUE),
                                                x = as.name(to.sum)))
  return(results)
}

这是我努力工作的时候所做的事情:

  1. 请注意,就像您已经拥有的~n()一样,通话必须以~开头。
  2. 使用实际变量编写正确的调用,看看它是否有效(~mean(eg1, na.rm = TRUE))。
  3. 使用lazyeval::interp重新创建该调用,并通过仅运行interp来检查,以便直观地看到它正在做什么。
  4. 在这种情况下,我可能经常写interp(~mean(x, na.rm = TRUE), x = to.sum)。但是运行它会给我们~mean("eg1", na.rm = TRUE),它将eg1视为字符而不是变量名。所以我们使用as.name,正如我们在vignette("nse")中所教导的那样。