Question

假设我有一个包含一些棒球运动员的数据表：

library(plyr)
library(data.table)

bdt <- as.data.table(baseball)

对于每个玩家（由id给出），我想找到与他们玩最多游戏的年份相对应的行。这在plyr中很简单：

ddply(baseball, "id", subset, g == max(g))

data.table的等效代码是什么？

我试过了：

setkey(bdt, "id") 
bdt[g == max(g)]  # only one row
bdt[g == max(g), by = id]  # Error: 'by' or 'keyby' is supplied but not j
bdt[, .SD[g == max(g)]] # only one row

这有效：

bdt[, .SD[g == max(g)], by = id]

但它只比plyr快30％，这表明它可能不是惯用语。

Answer 1

以下是快速data.table方式：

bdt[bdt[, .I[g == max(g)], by = id]$V1]

这可以避免构造.SD，这是表达式中的瓶颈。

编辑：实际上，OP速度慢的主要原因不仅在于它有.SD，而且它以特定的方式使用它 - 通过调用{ {1}}，目前有一个巨大的开销，所以在一个循环中运行它（当一个人做[.data.table时）会累积一个非常大的惩罚。

使用data.table按组进行子集化

1 个答案: