如何使用data.table获取滚动产品

时间:2015-06-02 18:39:50

标签: r data.table

dt <- data.table(x=c(1, .9, .8, .75, .5, .1))
dt
      x
1: 1.00
2: 0.90
3: 0.80
4: 0.75
5: 0.50
6: 0.10

对于每一行,如何获取该行和接下来两行的x乘积?

      x Prod.3
1: 1.00 0.7200
2: 0.90 0.5400
3: 0.80 0.3000
4: 0.75 0.0375
5: 0.50     NA
6: 0.10     NA

更一般地说,对于每一行,我如何获得该行的x和下一个 n 行的x的乘积?

4 个答案:

答案 0 :(得分:15)

以下是使用data.table::shift并结合Reduce的另一个可能版本(根据@Aruns评论)

library(data.table) #v1.9.6+
N <- 3L
dt[, Prod3 := Reduce(`*`, shift(x, 0L:(N - 1L), type = "lead"))]

shift是矢量化的,这意味着它可以一次创建几个新列,具体取决于传递给n参数的向量。然后,Reduce基本上是按元素方式将*应用于所有向量。

答案 1 :(得分:14)

以下是两种方式..尽管不是最有效的实现方式:

require(data.table)
N = 3L
dt[, prod := prod(dt$x[.I:(.I+N-1L)]), by=1:nrow(dt)]

使用embed()的另一个人:

tmp = apply(embed(dt$x, N), 1, prod)
dt[seq_along(tmp), prod := tmp]

基准:

set.seed(1L)
dt = data.table(x=runif(1e6))
zoo_fun <- function(dt, N) {
    rollapply(dt$x, N, FUN=prod, fill=NA, align='left')
}

dt1_fun <- function(dt, N) {
    dt[, prod := prod(dt$x[.I:(.I+N-1L)]), by=1:nrow(dt)]
    dt$prod
}

dt2_fun <- function(dt, N) {
    tmp = apply(embed(dt$x, N), 1L, prod)
    tmp[1:nrow(dt)]
}

david_fun <- function(dt, N) {
    Reduce(`*`, shift(dt$x, 0:(N-1L), type="lead"))
}

system.time(ans1 <- zoo_fun(dt, 3L))
#    user  system elapsed 
#   8.879   0.264   9.221 
system.time(ans2 <- dt1_fun(dt, 3L))
#    user  system elapsed 
#  10.660   0.133  10.959
system.time(ans3 <- dt2_fun(dt, 3L))
#    user  system elapsed 
#   1.725   0.058   1.819 
system.time(ans4 <- david_fun(dt, 3L))
#    user  system elapsed 
#   0.009   0.002   0.011 

all.equal(ans1, ans2) # [1] TRUE
all.equal(ans1, ans3) # [1] TRUE
all.equal(ans1, ans4) # [1] TRUE

答案 2 :(得分:9)

你可以尝试

library(zoo)
rollapply(dt, 3, FUN = prod)
          x
[1,] 0.7200
[2,] 0.5400
[3,] 0.3000
[4,] 0.0375

匹配预期输出

dt[, Prod.3 :=rollapply(x, 3, FUN=prod, fill=NA, align='left')]

答案 3 :(得分:1)

现在data.table具有快速滚动功能。因此@Mamoun Benghezal的方法可以用作

dt[, Prod.3 := frollapply(x, 3, FUN=prod, fill=NA, align='left')]

这非常快,尽管不如@David Arenburg的函数快。使用@Arun的基准测试:

set.seed(1L)
dt = data.table(x=runif(1e6))

froll_fun <- function(dt, N) {
    frollapply(dt$x, N, FUN = prod, fill = NA, align = 'left')
}

system.time(ans5 <- froll_fun(dt, 3L))
#  user  system elapsed 
# 0.191   0.000   0.191