创建向量元素的列表:循环与应用

时间:2015-10-12 23:12:52

标签: r function

我最近在R中开始编码,我读到apply函数比for循环更快。

假设我想从矢量中提取数字并将它们插入列表中。使用for循环这不是问题。但是,我很好奇这是否也可以使用apply函数,如果这样做有意义的话。我有类似的想法(这是行不通的):

some.list <- list()
some.vector <- 1:10
sapply(1:10,function(i){some.list[[i]] <- some.vector[i]})

1 个答案:

答案 0 :(得分:2)

有各种不同的方法来创建包含向量元素的列表(我将始终使用的那个元素将是as.list)。您可以使用R基准测试包来自己测试哪个更快:

fun1 <- function(v) as.list(v)
fun2 <- function(v) {
  l <- vector("list", length(v))  # Thanks to @MrFlick for pre-allocation tip
  for (i in seq_along(v)) {
    l[[i]] <- v[i]
  }
  l
}
fun2a <- function(v) {
  l <- vector("list", length(v))  # Thanks to @MrFlick for pre-allocation tip
  sapply(seq_along(v), function(i) l[[i]] <<- v[i])
  l
}
fun3 <- function(v) lapply(v, identity)
fun3a <- function(v) sapply(v, identity, simplify=FALSE)
fun4 <- function(v) unname(split(v, seq_along(v)))

v <- 1:10000
# Check if all return same thing (see http://stackoverflow.com/a/30850654/3093387)
all(sapply(list(fun2(v), fun2a(v), fun3(v), fun3a(v), fun4(v)), identical, fun1(v)))
# [1] TRUE

library(microbenchmark)
microbenchmark(fun1(v), fun2(v), fun2a(v), fun3(v), fun3a(v), fun4(v))
# Unit: microseconds
#      expr       min         lq       mean    median         uq       max neval
#   fun1(v)   139.543   178.5015   283.7498   218.720   288.1555  3730.439   100
#   fun2(v)  6809.344  7465.1110  9326.7799  7912.763 10881.0305 16963.567   100
#  fun2a(v) 10790.471 13786.2335 15912.5338 15089.547 15787.3085 71504.328   100
#   fun3(v)  4132.854  4545.2085  6612.3504  4768.798  7947.0820 63608.519   100
#  fun3a(v)  4147.731  4537.0010  5887.4457  4805.952  7604.4250 13613.517   100
#   fun4(v)  3341.360  3508.2995  3798.4246  3599.220  3797.1200  7565.591   100

对于长度为10000的列表,as.list约为lapply的15倍,sapply的{​​{1}}或simplify=FALSE。反过来,这三个选项比for循环快2-3倍,splitsapply(使用预先分配的输出列表;如果我们不预先分配,它会慢大约75倍)。简而言之,<<-sapply具有相似的运行时(for实际上看起来有点慢),并且两者都比此操作的向量化函数慢得多。