我有一个包含交易的数据表。除其他事项外,交易都标有日期/时间和客户。
library(data.table)
transactions <- data.table(trans.id = 1:10,
customer.id = c(rep(c('a','b'),3),'c'))
set.seed(42)
transactions[, time := sample(500, 10, T)]
对于每个交易,我想查找客户的前一个交易,这样我就可以做一些事情,比如计算自上次交易以来的时间。这是我能做的最好的......
Find.Prior.ID <- function(id.curr) {
trans.curr <- transactions[trans.id == id.curr]
time.curr <- trans.curr[, time]
customer <- trans.curr[, customer.id]
prior.trans <- transactions[
time < time.curr & customer.id == customer]
if (dim(prior.trans)[1] == 0) {return(NA)}
time.prior <- prior.trans[,max(time)]
id.prior <- prior.trans[
time == time.prior,
trans.id]
return(id.prior)
}
transactions[, prior.id := unlist(lapply(
X = trans.id, FUN = Find.Prior.ID))]
一旦我prior.id
填充了一个简单的合并,我就可以映射我想要的任何其他信息。我的问题真的归结为运行时间。这种结构具有突出的长时间运行。有没有办法更快地做到这一点?
ANSWER (特定于相关示例)
setorder(transactions, time)
transactions[, prior.id:=c(NA,trans.id[-.N]), by=customer.id]
答案 0 :(得分:5)
在data.table
版本1.9.5
中,有一个新的shift
函数,它使用参数type = lag
来计算滞后变量。
transactions[, prior.id := shift(trans.id, type = "lag"), by = customer.id]