使用' mutate _'按顺序排列一堆列

时间:2015-09-28 14:35:39

标签: r dplyr

In this blog post,Paul Hiemstra展示了如何使用dplyr::mutate_总结两列。复制/粘贴相关部分:

library(lazyeval)
f = function(col1, col2, new_col_name) {
    mutate_call = lazyeval::interp(~ a + b, a = as.name(col1), b = as.name(col2))
    mtcars %>% mutate_(.dots = setNames(list(mutate_call), new_col_name))
}

允许人们这样做:

head(f('wt', 'mpg', 'hahaaa'))

大!

我接着提出了一个问题(见评论),关于如何将其扩展到100列,因为我不清楚(对我而言)如何在不必输入所有名称的情况下做到这一点使用上述方法。 Paul非常友好地放纵我并提供了这个答案(谢谢!):

# data
df = data.frame(matrix(1:100, 10, 10))
names(df) = LETTERS[1:10]

# answer
sum_all_rows = function(list_of_cols) {
  summarise_calls = sapply(list_of_cols, function(col) {
    lazyeval::interp(~col_name, col_name = as.name(col))
  })
  df %>% select_(.dots = summarise_calls) %>% mutate(ans1 = rowSums(.))
}
sum_all_rows(LETTERS[sample(1:10, 5)])

我想在这些方面改进这个答案:

  1. 其他栏目已经消失。我想保留它们。

  2. 它使用rowSums(),它必须将 data.frame 强制转换为矩阵,我希望避免这种情况。

    此外,我还不确定是否鼓励在. 动词中使用do()?因为与.一起使用时,mutate()中的group_by()似乎不适应这些行。

  3. 最重要的是,如何使用mutate_()代替mutate()来做同样的事情?

  4. 我找到this answer,其中涉及第1点,但不幸的是,dplyr个答案都使用rowSums()mutate()

    PS:我刚读过Hadley's comment under that answer。 IIUC,'重塑为长形+组+总和+重塑为广泛形式'是这种类型的操作的推荐dplyr方法吗?

1 个答案:

答案 0 :(得分:7)

这是一种不同的方法:

library(dplyr); library(lazyeval)
f <- function(df, list_of_cols, new_col) {
  df %>% 
    mutate_(.dots = ~Reduce(`+`, .[list_of_cols])) %>% 
    setNames(c(names(df), new_col))
}

head(f(mtcars, c("mpg", "cyl"), "x"))
#   mpg cyl disp  hp drat    wt  qsec vs am gear carb    x
#1 21.0   6  160 110 3.90 2.620 16.46  0  1    4    4 27.0
#2 21.0   6  160 110 3.90 2.875 17.02  0  1    4    4 27.0
#3 22.8   4  108  93 3.85 2.320 18.61  1  1    4    1 26.8
#4 21.4   6  258 110 3.08 3.215 19.44  1  0    3    1 27.4
#5 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2 26.7
#6 18.1   6  225 105 2.76 3.460 20.22  1  0    3    1 24.1

关于你的观点:

  • 保留其他列
  • 不使用rowSums
  • 你特意要求在这里进行逐行操作,所以我不确定group_by. / {{mutate内使用mutate_时如何造成任何伤害1}}
  • 它使用mutate_