SUM的Dplyr相当于超过PARTITION BY

时间:2019-02-02 19:49:44

标签: r dplyr

我敢肯定,这个问题已经被问过,但我无法找到答案。

这是我的数据:

df <- data.frame(group=c("a","a","a","b","b","c"), value=c(1,2,3,4,5,7))
df
#>   group value
#> 1     a     1
#> 2     a     2
#> 3     a     3
#> 4     b     4
#> 5     b     5
#> 6     c     7

我想要第3列,其中每个“组”的“值”之和为:

#>   group value group_sum
#> 1     a     1         6
#> 2     a     2         6
#> 3     a     3         6
#> 4     b     4         9
#> 5     b     5         9
#> 6     c     7         7

我如何能做到这一点与dplyr?

4 个答案:

答案 0 :(得分:3)

使用dplyr-

df %>%
    group_by(group) %>%
    mutate(group_sum = sum(value))

答案 1 :(得分:2)

left_join(
  df,
  df %>% group_by(group) %>% summarise(group_sum = sum(value)),
  by = c("group")
)

答案 2 :(得分:2)

还没有人提到data.table

library(data.table)

dat <- data.table(df)

dat[, `:=`(sums = sum(value)), group]

dat转换为:

   group value sums
1:     a     1    6
2:     a     2    6
3:     a     3    6
4:     b     4    9
5:     b     5    9
6:     c     7    7

答案 3 :(得分:1)

我不知道该怎么做,但是

df_avg <- df %>% group_by(group) %>% summarize(group_sum=sum(value))  
df %>% full_join(df_avg,by="group")

有效。 (这基本上相当于@KeqiangLi的答案。)

ave(),从基R,是有用这里也:

df %>% mutate(group_sum=ave(value,group,FUN=sum))