列表中数字向量的累积和

时间:2015-03-04 16:04:16

标签: r vector add lapply sapply

我希望有人能够帮助我解决这个问题。我有一个包含48个向量的列表对象,每个向量的长度为2,000,000个。这是一个代码,它创建相同的结构,每个向量只有100,000个项目:

mtx_sim <- matrix(data = runif(48 * 100000), ncol = 48, nrow = 100000)
mtx_list <- as.list(data.frame(mtx_sim))

我想累计对列表中向量的每一行求和。但是,有一个规定我只想总结最后三十个向量。例如,列表中的第35个向量应该添加到34个前面的向量中。另一方面,列表中的第四个向量应该被添加到前面的三个向量(向量号三,二和一)。这是我的代码示例,它依赖于lapply函数和rowSums,它相对较慢:

start <- c(rep(1, times = 30), seq(2, 19, 1))
end <- seq(1,48,1)

system.time(xxx <- lapply(1:48, function(x)
rowSums(
  matrix(
    unlist(mtx_list[start[x]:end[x]]), 
    ncol = (end[x] - start[x] + 1)))
) )

 user  system elapsed 
 62.19    0.56   63.04 

有没有人有想法优化代码?

2 个答案:

答案 0 :(得分:2)

你在一个合理的算法中做了两件昂贵的事情:

  1. 您正在为列表重新创建每次迭代的矩阵;这可能很慢
  2. 你重复计算整行的总和,实际上你只需要计算边际变化
  3. 这是另一种选择。我们重建原始矩阵一次,然后只添加边缘列。

    fun_brodie <- function(mtx_list) {
      mtx <- do.call(cbind, mtx_list)
      base <- mtx[, 1]
      res <- list(base)
      for(i in seq(ncol(mtx))[-1]) 
        res[[i]] <- res[[i - 1]] + mtx[, i] - if(i > 30) mtx[, i - 30] else 0
      res
    }
    res <- fun_brodie(mtx_list)
    

    确认平等:

    all.equal(res, xxx)
    # [1] TRUE
    

    基准:

    library(microbenchmark)
    microbenchmark(times=3, fun_marat(mtx_list), fun_brodie(mtx_list), fun_op(mtx_list))
    

    产地:

    Unit: milliseconds
                     expr        min        lq       mean
      fun_marat(mtx_list)  1661.9135  1763.418  1800.3530
     fun_brodie(mtx_list)   115.7877   116.061   153.6794
         fun_op(mtx_list) 58059.7803 60388.303 62060.5557
    

    感谢Marat指出我的解释错误。另请注意,为了使fun_marat分区,我添加了将列表绑定到数据框的步骤。

答案 1 :(得分:1)

您可以使用此解决方案:

M <- t(apply(mtx_sim,1,cumsum))
  if (ncol(M)>30) {
  i <- 31:ncol(M)
  M[,i] <- M[,i] - M[,i-30]
}
M