计算组

时间:2018-06-11 16:23:41

标签: r dplyr cumsum cumulative-sum

我有一个类似以下的数据框

dataDF <- data.frame(
  group = c(rep('a', 10), rep('b', 10)),
  value = c(4, 4, 4, 3, 4, 3, 4, 3, 3, 3,
            3, 1, 1, 1, 3, 1, 3, 2, 3, 1)
)

我想查找过去5个条目中每个值在组中出现的次数(或者到目前为止还没有5行,那么总计数)。

所以我最终会:

   group value number_l5
1      a     4         1
2      a     4         2
3      a     4         3
4      a     3         1
5      a     4         4
6      a     3         2
7      a     4         3
8      a     3         3
9      a     3         3
10     a     3         4
11     b     3         1
12     b     1         1
13     b     1         2
14     b     1         3
15     b     3         2
16     b     1         4
17     b     3         2
18     b     2         1
19     b     3         3
20     b     1         2

所以前三行,每行的值为4,因此累计计数为1,2,3。第4行是我们第一次看到3,所以计数是1.当你超过第5行时我们只查看过去的5行,所以在第7行我们计算从第3行到第4行的数量7,获得3.一旦你到第11行,一个新组'b'开始,我们重新开始。

如果可能,请与dplyrgroup_by

提前致谢

编辑:最初要求比例,使更简单,希望更清楚已改变要求编号。为任何困惑道歉!

2 个答案:

答案 0 :(得分:3)

您可以使用zoo::rollapply;这里将窗口大小设置为5partial=T以包含前几个元素; sum(v == tail(v, 1))用于计算每个窗口中最后一个元素出现的次数:

library(dplyr)
library(zoo)

dataDF %>% 
    group_by(group) %>% 
    mutate(proportion = rollapply(value, 5, function(v) sum(v == tail(v, 1)), partial=T, align='right'))

# A tibble: 20 x 3
# Groups:   group [2]
#   group value proportion
#   <fct> <dbl>      <int>
# 1 a         4          1
# 2 a         4          2
# 3 a         4          3
# 4 a         3          1
# 5 a         4          4
# 6 a         3          2
# 7 a         4          3
# 8 a         3          3
# 9 a         3          3
#10 a         3          4
#11 b         3          1
#12 b         1          1
#13 b         1          2
#14 b         1          3
#15 b         3          2
#16 b         1          4
#17 b         3          2
#18 b         2          1
#19 b         3          3
#20 b         1          2

答案 1 :(得分:0)

dataDF%>%
  group_by(group)%>%
  mutate(i=1:n(),value1=list(value))%>%
  group_by(group,i)%>%
  mutate(proportion=mean(value==unlist(value1)[if(i<5)1:i else i:(i-4)]))%>%
  ungroup()%>%
  select(-i,-value1)
# A tibble: 20 x 3
   group value proportion
   <fct> <dbl>      <dbl>
 1 a        4.      1.00 
 2 a        4.      1.00 
 3 a        4.      1.00 
 4 a        3.      0.250
 5 a        4.      0.800
 6 a        3.      0.400
 7 a        4.      0.600
 8 a        3.      0.600
 9 a        3.      0.600
10 a        3.      0.800
11 b        3.      1.00 
12 b        1.      0.500
13 b        1.      0.667
14 b        1.      0.750
15 b        3.      0.400
16 b        1.      0.800
17 b        3.      0.400
18 b        2.      0.200
19 b        3.      0.600
20 b        1.      0.400
>