Question

我的数据看起来有点像这样：

df <- data.frame(ID=c(rep(1,4),rep(2,2),rep(3,2),4), TYPE=c(1,3,2,4,1,2,2,3,2),
                 SEQUENCE=c(seq(1,4),1,2,1,2,1))

ID  TYPE  SEQUENCE
1   1     1
1   3     2
1   2     3
1   4     4
2   1     1
2   2     2
3   2     1
3   3     2
4   2     1

我知道需要检查每个ID块（二进制）中是否存在某种类型，但只记录在每个区块的第一个记录中回答（SEQUENCE == 1）。

到目前为止，我想出的最好的是将它们编码在它们所在的行中，例如

library(data.table)
DT <- data.table(df)
DT$A[DT$TYPE==1] <- 1
DT$B[DT$TYPE==2] <- 1
DT$C[DT$TYPE==3] <- 1
DT$D[DT$TYPE==4] <- 1
DT[is.na(DT)] <- 0

结果：

ID  TYPE  SEQUENCE  A B C D
1   1     1         1 0 0 0
1   3     2         0 0 1 0
1   2     3         0 1 0 0
1   4     4         0 0 0 1
2   1     1         1 0 0 0
2   2     2         0 1 0 0
3   2     1         0 1 0 0
3   3     2         0 0 1 0
4   2     1         0 1 0 0

但是，结果应如下所示：

ID  TYPE  SEQUENCE  A B C D
1   1     1         1 1 1 1
1   3     2         0 0 0 0
1   2     3         0 0 0 0
1   4     4         0 0 0 0
2   1     1         1 1 0 0
2   2     2         0 0 0 0
3   2     1         0 1 1 0
3   3     2         0 0 0 0
4   2     1         0 1 0 0

我认为这可以通过data.table完成，但我还没有找到正确的语法。

Answer 1

这会生成data.table的一个副本：

DT[, FAC := factor(TYPE, labels=LETTERS[1:4])]

DT <- dcast.data.table(DT, ID+TYPE+SEQUENCE~FAC, fun.aggregate=length)
DT[,LETTERS[1:4] := lapply(.SD, 
                           function(x) c(any(as.logical(x)), rep(0L, length(x)-1))),
   .SDcols=LETTERS[1:4], by=ID]
#   ID TYPE SEQUENCE A B C D
#1:  1    1        1 1 1 1 1
#2:  1    2        3 0 0 0 0
#3:  1    3        2 0 0 0 0
#4:  1    4        4 0 0 0 0
#5:  2    1        1 1 1 0 0
#6:  2    2        2 0 0 0 0
#7:  3    2        1 0 1 1 0
#8:  3    3        2 0 0 0 0
#9:  4    2        1 0 1 0 0

R data.table条件在组内，但在组中的第一个实例中记录

1 个答案: