数据表子集最后一行(保留订单)

时间:2018-01-19 02:17:08

标签: r data.table subset

有:

> aDT <- data.table(ID = c(3,3,2,2,2,3), colA = c(5,5,4,4,4,5), colC = c(1:6))
> aDT
   ID colA colC
1:  3    5    1
2:  3    5    2
3:  2    4    3
4:  2    4    4
5:  2    4    5
6:  3    5    6

需要:

> aDT <- data.table(ID = c(3,2,3), colA = c(5,4,5), colC = c(2,5,6))
> aDT
   ID colA colC
1:  3    5    2
2:  2    4    5
3:  3    5    6

尝试:

> aDT[, .SD[.N], by = list(ID,colA)]
   ID colA colC
1:  3    5    6
2:  2    4    5

正如您所看到的,结果并不是我真正需要的。怎么解决? (顺便说一句,我想保留相同的顺序)

1 个答案:

答案 0 :(得分:2)

您实际上并不是按IDcolA进行分组,而是按连续的分组进行分组,为此您可以使用rleid

aDT[aDT[, .I[.N], rleid(ID, colA)]$V1]

#   ID colA colC
#1:  3    5    2
#2:  2    4    5
#3:  3    5    6

.I[.N]提取每个组的最后一行的全局行号:

aDT[, .I[.N], rleid(ID, colA)]

#   rleid V1               
#1:     1  2
#2:     2  5
#3:     3  6      there are three groups in total, the row numbers of last rows are 2,5,6

然后使用行号对原始数据表进行子集化。