是什么让rollmean比rollapply更快(代码方式)?

时间:2013-08-07 20:36:31

标签: r zoo

我经常发现时间序列的滚动事件(特别是手段),并且惊讶地发现rollmean明显比rollapply快,并且align = 'right'方法比rollmeanr封套。

他们是如何实现这种加速的?为什么在使用rollmeanr()包装器时会丢失一些?

一些背景知识:我一直在使用rollapplyr(x, n, function(X) mean(X)),但最近我发现了一些使用rollmean的例子。文档建议rollapplyr(x, n, mean)(注意没有参数的function部分)使用rollmean因此我认为性能不会有太大差异,但是rbenchmark显示显着的差异。

require(zoo)
require(rbenchmark)

x <- rnorm(1e4)
r1 <- function() rollapplyr(x, 3, mean) # uses rollmean
r2 <- function() rollapplyr(x, 3, function(x) mean(x))
r3 <- function() rollmean(x, 3, na.pad = TRUE, align = 'right')
r4 <- function() rollmeanr(x, 3, align = "right")

bb <- benchmark(r1(), r2(), r3(), r4(), 
          columns = c('test', 'elapsed', 'relative'), 
          replications = 100, 
          order = 'elapsed')

print(bb)

我很惊讶地发现rollmean(x, n, align = 'right')明显更快 - 比我的rollapply(x, n, function(X) mean(X))方法快40倍。

  test elapsed relative
3 r3()    0.74    1.000
4 r4()    0.86    1.162
1 r1()    0.98    1.324
2 r2()   27.53   37.203

随着数据集大小的增长,差异似乎越来越大。我在上面的代码中只更改了x(到rnorm(1e5))的大小并重新运行了测试,这些函数之间的差异更大。

  test elapsed relative
3 r3()   13.33    1.000
4 r4()   17.43    1.308
1 r1()   19.83    1.488
2 r2()  279.47   20.965 

x <- rnorm(1e6)

  test elapsed relative
3 r3()   44.23    1.000
4 r4()   54.30    1.228
1 r1()   65.30    1.476
2 r2() 2473.35   55.920

他们是怎么做到的?此外,这是最佳解决方案吗?当然,这很快,但有没有甚至更快的方式来做到这一点?

(注意:一般来说,我的时间序列几乎总是xts个对象 - 这有关系吗?)

1 个答案:

答案 0 :(得分:7)

计算滚动均值比计算一般滚动函数更快,因为第一个更容易计算。在计算一般滚动功能时,您必须反复计算每个窗口上的功能,由于简单的标识,您不必为mean执行此操作:

 (a2 + a3 + ... + an)/(n-1) = (a1 + a2 + ... + a(n-1))/(n-1) + (an - a1)/(n-1)

您可以通过查看getAnywhere(rollmean.zoo)来了解这是如何利用的。

如果你想要更快的滚动平均值,请使用runmean中的caTools,这是在C中实现的,它使得速度更快(它也可以更好地扩展,因此可以更快地缩放数据增加)。

library(microbenchmark)
library(caTools)
library(zoo)

x = rnorm(1e4)
microbenchmark(runmean(x, 3, endrule = 'trim', align = 'right'),
               rollmean(x, 3, align = 'right'))
#Unit: microseconds
#                                             expr      min        lq     median        uq       max neval
# runmean(x, 3, endrule = "trim", align = "right")  631.061  740.0775   847.5915  1020.048  1652.109   100
#                  rollmean(x, 3, align = "right") 7308.947 9155.7155 10627.0210 12760.439 16919.092   100