我的数据看起来像这样。
每次id
都被观察过几次。
main
是每次观察的结果。
我需要做的是每次main
改变时增加,所以每次观察结果与前一次不同。
例如,id
第一个观察结果为20
,然后是30
,然后是12
的连续。
> dtd
id main ep
1 1 20 1
2 1 30 1
3 1 12 1
4 1 12 1
5 1 12 1
6 1 15 1
7 1 15 1
8 2 30 1
9 2 12 1
10 2 12 1
11 2 23 1
12 2 23 1
我最终需要的是这个
> dtd
id main ep
1 1 20 1
2 1 30 2
3 1 12 3
4 1 12 3
5 1 12 3
6 1 15 4
7 1 15 4
8 2 30 1
9 2 12 2
10 2 12 2
11 2 23 3
12 2 23 3
因此,每次id
发生变化时都要增加。
任何建议都非常欢迎。
我想出了这个循环,但它非常麻烦。
for(i in 2:nrow(dtd)){
if(dtd$id[i] == dtd$id[i-1] & dtd$main[i] != dtd$main[i-1] ){
dtd$ep[i] = dtd$ep[i-1] + 1
}
if(dtd$id[i] == dtd$id[i-1] & dtd$main[i] == dtd$main[i-1] ){
dtd$ep[i] = dtd$ep[i-1]
}
}
谢谢
数据
dtd <- structure(list(id = c(1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2), main = c(20,
30, 12, 12, 12, 15, 15, 30, 12, 12, 23, 23), ep = c(1, 2, 3,
3, 3, 4, 4, 1, 2, 2, 3, 3)), .Names = c("id", "main", "ep"), row.names =
c(NA, -12L), class = "data.frame")
答案 0 :(得分:4)
您可以使用ave
:
DF$ep <- ave(DF$main, DF$id, FUN = function(x) cumsum(c(1L, diff(x) != 0)))
给出了
id main ep
1 1 20 1
2 1 30 2
3 1 12 3
4 1 12 3
5 1 12 3
6 1 15 4
7 1 15 4
8 2 30 1
9 2 12 2
10 2 12 2
11 2 23 3
12 2 23 3
我发现cumsum
和diff
难以使用和调试,所以我会改用
library(data.table)
setDT(DF)[, ep := rleid(main), by=id]
给出了
id main ep
1: 1 20 1
2: 1 30 2
3: 1 12 3
4: 1 12 3
5: 1 12 3
6: 1 15 4
7: 1 15 4
8: 2 30 1
9: 2 12 2
10: 2 12 2
11: 2 23 3
12: 2 23 3