使用dplyr的do()复杂表达式的NSE

时间:2016-03-22 23:21:17

标签: r dplyr nse

当变量引用的格式为".$mpg"时,有人可以帮助我理解NSE如何与dplyr一起使用。

在阅读here后,我认为使用as.name会这样做,因为我有一个字符串,它给出了一个变量名。

例如,这有效:

mtcars %>% 
summarise_(interp(~mean(var), var = as.name("mpg")))

这不起作用:

mtcars %>% 
summarise_(interp(~mean(var), var = as.name(".$mpg")))

但这样做:

mtcars %>% 
 summarise(mean(.$mpg)) 

这样做:

mtcars %>%
summarise(mean(mpg)) 

我希望能够以.$mpg的形式指定变量,这样当我没有为数据指定点时,我可以将它与do()一起使用,如下例所示:

library(dplyr)
library(broom)

mtcars %>% 
 tbl_df() %>% 
 slice(., 1) %>% 
 do(tidy(prop.test(.$mpg, .$disp, p = .50)))
  • 在这里选择随机变量来演示prop.test函数的工作原理,请不要将其解释为误用测试。

最终,我想把它变成这样的函数:

 library(lazyeval)
 library(broom)
 library(dplyr)


p_test <- function(x, miles, distance){
        x %>% 
         tbl_df() %>% 
         slice(., 1) %>% 
         do_(tidy(prop.test(miles, distance, p = .50))) 
  }

p_test(mtcars, ".$mpg", ".$disp")

我原本以为我必须做以下事情:      interp(~var, var = as.name(miles)其中miles将替换为.$mpg,但正如我在顶部提到的,这似乎不起作用。

1 个答案:

答案 0 :(得分:1)

原因是as.name创建了未评估的变量名称,但.$mpg在代码中使用时,不是变量名称。相反,它是一个复杂的表达式,相当于:

`$`(., mpg)

也就是说,它是一个带有两个参数的函数$的函数调用。使用as.name会导致R随后搜索名为`.$mpg`的变量,而不是调用上述函数。

这就解释了为什么你的尝试不起作用。然后解决方案相对简单:我们需要创建一个未评估的函数调用表达式,而不是创建未评估的变量名称。我们可以通过各种方式做到这一点,我将在这里展示两个。

第一种只是致电parse

p_test = function (data, miles, distance) {
    x = parse(text = miles)[[1]]
    n = parse(text = distance)[[1]]
    data %>%
        slice(1) %>%
        do_(interp(~tidy(prop.test(x, n, p = 0.5)), x = x, n = n))
}

现在您可以致电p_test(mtcars, '.$mpg', '.$disp')并获得所需的结果。

然而,更多 dplyr -y做同样事情的方法是将未评估的对象传递给p_test

p_test(mtcars, mpg, disp)

...我们可以通过简单的更改轻松完成此任务:

p_test_ = function (data, var1, var2) {
    data %>%
        slice(1) %>%
        do_(interp(~tidy(prop.test(.$x, .$n, p = 0.5)),
                   x = as.name(var1), n = as.name(var2)))
}

p_test = function (data, var1, var2) {
    p_test_(data, substitute(var1), substitute(var2))
}

现在以下两段代码都有效:

p_test(mtcars, mpg, disp)
p_test_(mtcars, 'mpg', 'disp')