有条件地将函数应用于使用magrittr,dplyr和purrr在R中对数据帧进行分组

时间:2016-03-30 15:10:45

标签: r dplyr magrittr purrr

我想使用magrittr,dplyr和purrr的简洁性来将一个大型数据帧(包含许多不同类型的变量)拆分为一个变量x,然后通过x有条件地应用不同的函数将组中的每个组和行转换为第二个变量y

获取数据框df <- data.frame(a, b, x, c, d, y),其中x是因子(foobar)和y是数字。因此,我可以通过一个不受欢迎的工作流程来完成我所描述的非常优秀的工作:

df$y[df$x == "foo"] %<>% subtract(min(.))
df$y[df$x == "bar"] %<>% add(max(df$y[df$x == "foo"]))

我想使用dplyr重写它并将其添加到df的长管道中,但我尝试合并mutatesapplydo的所有尝试都失败了;尝试将purrr与匿名函数by_slicedmap合并。

非常感谢您的建议。

1 个答案:

答案 0 :(得分:1)

这比dplyrmagrittr,但我认为它更具可读性。我对%<>%有点不舒服,因为它破坏了操作的线性结构,并使代码更难阅读。所以我在这里使用%>%

与您的说明匹配的示例数据框:

df <- data.frame(a = 'a', 
                 b = 'b', 
                 x = c("foo", "bar") , 
                 c = 'c', 
                 d = 'd', 
                 y = 1:6) 
df
  a b   x c d y
1 a b foo c d 1
2 a b bar c d 2
3 a b foo c d 3
4 a b bar c d 4
5 a b foo c d 5
6 a b bar c d 6

您的代码:

library(dplyr)
library(magrittr)
df$y[df$x == "foo"] %<>% subtract(min(.))

df
  a b   x c d y
1 a b foo c d 0
2 a b bar c d 2
3 a b foo c d 2
4 a b bar c d 4
5 a b foo c d 4
6 a b bar c d 6

df$y[df$x == "bar"] %<>% add(max(df$y[df$x == "foo"]))

df
  a b   x c d  y
1 a b foo c d  0
2 a b bar c d  6
3 a b foo c d  2
4 a b bar c d  8
5 a b foo c d  4
6 a b bar c d 10

dplyr解决方案:

df %>% 
  mutate(y = ifelse(x == "foo", y - min(y), y)) %>% 
  mutate(y = ifelse(x == "bar", y + max(y[x == 'foo']), y))

  a b   x c d  y
1 a b foo c d  0
2 a b bar c d  6
3 a b foo c d  2
4 a b bar c d  8
5 a b foo c d  4
6 a b bar c d 10