Question

我有一个包含交易的数据表。除其他事项外，交易都标有日期/时间和客户。

library(data.table)
transactions <- data.table(trans.id = 1:10,
                           customer.id = c(rep(c('a','b'),3),'c'))
set.seed(42)
transactions[, time := sample(500, 10, T)]

对于每个交易，我想查找客户的前一个交易，这样我就可以做一些事情，比如计算自上次交易以来的时间。这是我能做的最好的......

Find.Prior.ID <- function(id.curr) {
  trans.curr <- transactions[trans.id == id.curr]
  time.curr <- trans.curr[, time]
  customer <- trans.curr[, customer.id]
  prior.trans <- transactions[
    time < time.curr & customer.id == customer]
  if (dim(prior.trans)[1] == 0) {return(NA)}
  time.prior <- prior.trans[,max(time)]
  id.prior <- prior.trans[
    time == time.prior,
    trans.id]
  return(id.prior)
}

transactions[, prior.id := unlist(lapply(
  X = trans.id, FUN = Find.Prior.ID))]

一旦我prior.id填充了一个简单的合并，我就可以映射我想要的任何其他信息。我的问题真的归结为运行时间。这种结构具有突出的长时间运行。有没有办法更快地做到这一点？

ANSWER （特定于相关示例）

setorder(transactions, time)
transactions[, prior.id:=c(NA,trans.id[-.N]), by=customer.id]

Answer 1

在data.table版本1.9.5中，有一个新的shift函数，它使用参数type = lag来计算滞后变量。

transactions[, prior.id := shift(trans.id, type = "lag"), by = customer.id]

从R中的先前观察中查找信息

1 个答案: