在键入的unique
上调用data.table
,每个组都有唯一的行。如果是重复的行,则将采用第一行。当我需要取最后一个(通常是最后一个时间事务)时,我使用.SD[.N]
library(data.table)
library(microbenchmark)
dt <- data.table(id=sample(letters, 10000, T), var=rnorm(10000), key="id")
microbenchmark(unique(dt), dt[, .SD[.N], by=id])
Unit: microseconds
expr min lq median uq max neval
unique(dt) 570.882 586.1155 595.8975 608.406 3209.122 100
dt[, .SD[.N], by = id] 6532.739 6637.7745 6694.3820 6776.968 208264.433 100
你知道更快的方法吗?
答案 0 :(得分:8)
创建一个data.table
,其中包含关键变量的唯一组合,然后使用mult = 'last'
加入
使用.SD
很方便,但很慢。如果您愿意,可以使用.I
代替。
dtu <- unique(dt)[,key(dt), with = FALSE]
dt[dtu, mult = 'last']
或者
dt[ dt[, .I[.N], by = key(dt)]$V1]
答案 1 :(得分:3)
从data.table
v1.9.4开始,您可以使用fromLast = TRUE
。
microbenchmark(unique(dt, by = "id"),
dt[, .SD[.N], by=id],
unique(dt, by = "id", fromLast = TRUE))
Unit: microseconds
expr min lq mean median uq max neval cld
unique(dt, by = "id") 333.978 355.1900 406.1585 371.1360 393.4015 3203.769 100 a
dt[, .SD[.N], by = id] 519.320 541.4345 580.2176 553.6200 563.5490 2690.167 100 b
unique(dt, by = "id", fromLast = TRUE) 338.190 366.4725 430.1296 380.9145 400.7730 4774.663 100 a
答案 2 :(得分:0)
这是另一种选择,虽然它看起来比@mnel的答案略慢,至少对于这个例子而言。
dt[,list(var,RN=.N:1),by=id][RN==1L]