我有一个类似以下的数据框
dataDF <- data.frame(
group = c(rep('a', 10), rep('b', 10)),
value = c(4, 4, 4, 3, 4, 3, 4, 3, 3, 3,
3, 1, 1, 1, 3, 1, 3, 2, 3, 1)
)
我想查找过去5个条目中每个值在组中出现的次数(或者到目前为止还没有5行,那么总计数)。
所以我最终会:
group value number_l5
1 a 4 1
2 a 4 2
3 a 4 3
4 a 3 1
5 a 4 4
6 a 3 2
7 a 4 3
8 a 3 3
9 a 3 3
10 a 3 4
11 b 3 1
12 b 1 1
13 b 1 2
14 b 1 3
15 b 3 2
16 b 1 4
17 b 3 2
18 b 2 1
19 b 3 3
20 b 1 2
所以前三行,每行的值为4,因此累计计数为1,2,3。第4行是我们第一次看到3,所以计数是1.当你超过第5行时我们只查看过去的5行,所以在第7行我们计算从第3行到第4行的数量7,获得3.一旦你到第11行,一个新组'b'开始,我们重新开始。
如果可能,请与dplyr
和group_by
提前致谢
编辑:最初要求比例,使更简单,希望更清楚已改变要求编号。为任何困惑道歉!答案 0 :(得分:3)
您可以使用zoo::rollapply
;这里将窗口大小设置为5
和partial=T
以包含前几个元素; sum(v == tail(v, 1))
用于计算每个窗口中最后一个元素出现的次数:
library(dplyr)
library(zoo)
dataDF %>%
group_by(group) %>%
mutate(proportion = rollapply(value, 5, function(v) sum(v == tail(v, 1)), partial=T, align='right'))
# A tibble: 20 x 3
# Groups: group [2]
# group value proportion
# <fct> <dbl> <int>
# 1 a 4 1
# 2 a 4 2
# 3 a 4 3
# 4 a 3 1
# 5 a 4 4
# 6 a 3 2
# 7 a 4 3
# 8 a 3 3
# 9 a 3 3
#10 a 3 4
#11 b 3 1
#12 b 1 1
#13 b 1 2
#14 b 1 3
#15 b 3 2
#16 b 1 4
#17 b 3 2
#18 b 2 1
#19 b 3 3
#20 b 1 2
答案 1 :(得分:0)
dataDF%>%
group_by(group)%>%
mutate(i=1:n(),value1=list(value))%>%
group_by(group,i)%>%
mutate(proportion=mean(value==unlist(value1)[if(i<5)1:i else i:(i-4)]))%>%
ungroup()%>%
select(-i,-value1)
# A tibble: 20 x 3
group value proportion
<fct> <dbl> <dbl>
1 a 4. 1.00
2 a 4. 1.00
3 a 4. 1.00
4 a 3. 0.250
5 a 4. 0.800
6 a 3. 0.400
7 a 4. 0.600
8 a 3. 0.600
9 a 3. 0.600
10 a 3. 0.800
11 b 3. 1.00
12 b 1. 0.500
13 b 1. 0.667
14 b 1. 0.750
15 b 3. 0.400
16 b 1. 0.800
17 b 3. 0.400
18 b 2. 0.200
19 b 3. 0.600
20 b 1. 0.400
>