dplyr:将计数出现放入新变量中

时间:2014-11-06 16:24:18

标签: r dplyr

想要了解dplyr代码,但无法弄清楚这一点。此处针对许多变量(summarizing counts of a factor with dplyrPutting rowwise counts of value occurences into new variables, how to do that in R with dplyr?)看到了类似的问题,但我的任务有点小。
给定一个数据框,我如何计算变量的频率并将其放在一个新变量中。

set.seed(9)
df <- data.frame(
    group=c(rep(1,5), rep(2,5)),
    var1=round(runif(10,1,3),0))

然后我们有:

>df
   group var1
1      1    1
2      1    1
3      1    1
4      1    1
5      1    2
6      2    1
7      2    2
8      2    2
9      2    2
10     2    3

希望第三列显示每组(group)出现var1的次数,在此示例中,这将是:count =(4,4,4,4,1,1 ,3,3,3,1)。 我试过 - 没有成功 - 比如:

df %>%  group_by(group) %>% rowwise() %>% do(count = nrow(.$var1))

非常感谢解释!

4 个答案:

答案 0 :(得分:41)

您需要做的就是按两列对数据进行分组,&#34; group&#34;和&#34; var1&#34;:

df %>% group_by(group, var1) %>% mutate(count = n())
#Source: local data frame [10 x 3]
#Groups: group, var1
#
#   group var1 count
#1      1    1     4
#2      1    1     4
#3      1    1     4
#4      1    1     4
#5      1    2     1
#6      2    1     1
#7      2    2     3
#8      2    2     3
#9      2    2     3
#10     2    3     1

评论后编辑

以下是您不应该做的一个例子:

df %>% group_by(group, var1) %>% do(data.frame(., count = length(.$group)))

使用n()的dplyr实现肯定更快,更清晰,更短,并且应始终优先于上述实现。

答案 1 :(得分:13)

也许这是新功能,但可以使用一个dplyr命令完成:

df %>% add_count(group, var1)
   group  var1     n
 1     1     1     4
 2     1     1     4
 3     1     1     4
 4     1     1     4
 5     1     2     1
 6     2     1     1
 7     2     2     3
 8     2     2     3
 9     2     2     3
10     2     3     1

答案 2 :(得分:10)

我们可能会使用来自tally

的另一个方便的函数dplyr
df %>% group_by(group, var1) %>% tally()
# Source: local data frame [5 x 3]
# Groups: group
# 
#   group var1 n
# 1     1    1 4
# 2     1    2 1
# 3     2    1 1
# 4     2    2 3
# 5     2    3 1

答案 3 :(得分:4)

两种选择:

1:,基数为R:

# option 1:
df$count <- ave(df$var1, df$var1, df$group, FUN = length)
# option 2:
df <- transform(df, count = ave(var1, var1, group, FUN = length))

给出:

> df
   group var1 count
1      1    1     4
2      1    1     4
3      1    1     4
4      1    1     4
5      1    2     1
6      2    1     1
7      2    2     3
8      2    2     3
9      2    2     3
10     2    3     1

2:fiddle

library(data.table)
setDT(df)[, count:=.N, by = .(group, var1)]

给出相同的结果:

> df
    group var1 count
 1:     1    1     4
 2:     1    1     4
 3:     1    1     4
 4:     1    1     4
 5:     1    2     1
 6:     2    1     1
 7:     2    2     3
 8:     2    2     3
 9:     2    2     3
10:     2    3     1

如果您想要总结,可以使用:

# with base R:
aggregate(id ~ group + var1, transform(df, id = 1), length)

# with 'dplyr':
count(df, group, var1)

# with 'data.table':
setDT(df)[, .N, by = .(group, var1)]