Question

> tempDT <- data.table(colA = c("E","E","A","A","E","A","E")
+                      , lags = c(NA,1,1,2,3,1,2))
> tempDT
   colA lags
1:    E   NA
2:    E    1
3:    A    1
4:    A    2
5:    E    3
6:    A    1
7:    E    2

我有列colA，需要找到当前行与colA == "E"前一行之间的滞后。

注意：如果我们可以找到colA == "E"的前一行的行引用，那么我们可以计算滞后。但是，我不知道如何实现它。

Answer 1

1）定义lastEpos，其中i返回前E行中最后一个i的位置并将其应用于每个lastEpos <- function(i) tail(which(tempDT$colA[1:i] == "E"), 1) tempDT[, lags := .I - shift(sapply(.I, lastEpos))]行行号：

lastEpos

以下是一些变体：

2）i-1 在此变体E中，返回前i-1行而不是i行中lastEpos <- function(i) tail(c(NA, which(tempDT$colA[seq_len(i-1)] == "E")), 1) tempDT[, lags := .I - sapply(.I, lastEpos)]的最后位置：

Position

3）排名与（2）类似，但使用lastEpos <- function(i) Position(c, tempDT$colA[seq_len(i-1)] == "E", right = TRUE) tempDT[, lags := .I - sapply(.I, lastEpos)]：

library(zoo)
w <- lapply(1:nrow(tempDT), function(i) -rev(seq_len(i-1)))
tempDT[, lags := .I - rollapply(colA == "E", w, Position, f = c, right = TRUE)]

4）rollapply

library(sqldf)

sqldf("select a.colA, a.rowid - b.rowid lags
       from tempDT a left join tempDT b
       on b.rowid < a.rowid and b.colA = 'E'
       group by a.rowid")

5）sqldf

show_ordinal

R data.table在当前行到上一行之间找到滞后

1 个答案: