Question

这个问题令我难过。

我有以下数据框：

library(dplyr)

# approximation of data frame
x <- data.frame(doy = sample(c(seq(200, 300)), 20, replace = T),
                year = sample(c("2000", "2005"), 20, replace = T), 
                phase = sample(c("pre", "post"), 20, replace = T))

和一个简单的'summaryrize'函数，它将列名作为变量，并且运行良好：

 getStats <- function(df, col) {
      col <- as.name(col)
      df %>% 
        group_by(year, phase) %>% 
        summarize(n = sum(!is.na(col)), 
                  mean = mean(col, na.rm = T),
                  sd = sd(col, na.rm = T),
                  se = sd/sqrt(n))
 }

> getStats(x, "doy")
Source: local data frame [4 x 6]
Groups: year [?]

    year  phase     n    mean       sd       se
  <fctr> <fctr> <int>   <dbl>    <dbl>    <dbl>
1   2000   post     8 248.625 30.42526 10.75695
2   2000    pre     2 290.000 14.14214 10.00000
3   2005   post     5 231.400 32.86031 14.69558
4   2005    pre     5 274.200 29.79429 13.32441

但是，如果我修改函数以获得中位数，则会返回错误：

 getStats <- function(df, col) {
      col <- as.name(col)
      df %>% 
        group_by(year, phase) %>% 
        summarize(n = sum(!is.na(col)), 
                  mean = mean(col, na.rm = T),
                  med = median(col, na.rm = T), # new line 
                  sd = sd(col, na.rm = T),
                  se = sd/sqrt(n))
    }

> getStats(x, "doy")

Error in median (doy, na.rm = TRUE): object "doy" not found

我尝试了一系列名称和位置更改，但都产生了相同的结果：'median'不接受列名作为传递变量。我想我错过了一些基本的东西，当有人向我指出时，我会做一个脸部手掌，但在过渡时期，我觉得我失去了理智。我很感激任何见解！

Answer 1

您的近端问题可能是median没有...参数，而mean确实存在（我不确定为什么sd正在运作...也许是方法和...之间的互动？）

在任何情况下，IMO处理此类问题的正确方法是使用标准评估（即不非标准评估，即使用{{1而不是summarise_，如summarise）中所示：

说明它如何在全局环境中而不是在函数内部工作，但我认为这不应该......

vignette("nse",package="dplyr")

唯一令人烦恼的是，由于某种原因，col <- "doy" funs <- c("n","mean","stats::median","sd","se") ## put together function calls dots <- c(sprintf("sum(!is.na(%s))",col), sprintf("%s(%s,na.rm=TRUE)",funs[2:4],col), "sd/sqrt(n)") names(dots) <- gsub("^.*::","",funs) ## ugh dots ## n mean ## "sum(!is.na(doy))" "mean(doy,na.rm=TRUE)" ## median sd ## "stats::median(doy,na.rm=TRUE)" "sd(doy,na.rm=TRUE)" ## se ## "sd/sqrt(n)" x %>% group_by(year, phase) %>% summarise_(.dots=dots)无法找到dplyr，除非我将其称为median，这意味着我们必须更努力地工作才能变得更好列名。标准评估方法有点丑陋，但这是你为这种灵活性付出的代价。

将其嵌入到一个函数中，我可能会在另一个地方中断stats::median，即

getStats

这使您可以更灵活地进行不同的分组......

dplyr'找不到对象'仅限中位数

1 个答案: