哪种提取方法最快?

时间:2019-11-30 15:39:38

标签: r

提供名单

li = list(a = list(b = list(1:3)))

以下提取方法得出的结果相同:

li[["a"]][["b"]][[1]][[2]]
[1] 2

purrr::pluck(li, "a", "b", 1, 2)
[1] 2

for (i in list("a", "b", 1, 2)) li = `[[`(li, i)
li
[1] 2

purrr::pluckfor具有明显的优势,即可以以编程方式构造嵌套索引的向量。在以下方面进行比较时,有什么要考虑的?

  • 性能(例如,“链接” [[方法与for方法有显着不同/更快吗?)
  • 其中一种方法可能会提供与其他方法不同的结果的边缘情况

2 个答案:

答案 0 :(得分:3)

当我问“哪种方法最快” “不仅是执行速度” 时,我不清楚您的意思。如果您指的是渐近性能,那么也许我们可以对列表进行一些测试。 (如果您是指代码优雅,惯用性或其他含义,那么也许这不是最明确的问题。)

我有第四个建议:

Reduce(`[[`, list('a','b',1L,2L), init=li)

性能比较:

microbenchmark::microbenchmark(
  base = li[["a"]][["b"]][[1]][[2]],
  purrr = purrr::pluck(li, "a", "b", 1, 2),
  "for" = { li0 <- li; for (i in list("a", "b", 1, 2)) li0 = `[[`(li0, i)}, 
  reduce = Reduce(`[[`, list('a', 'b', 1L, 2L), init=li)
)
# Unit: microseconds
#    expr    min      lq     mean  median      uq    max neval
#    base    1.5    2.65    3.747    3.60    4.95    8.9   100
#   purrr   33.9   62.00   73.727   67.70   91.90  159.1   100
#     for 2716.7 3465.65 4671.615 5120.05 5353.00 6090.2   100
#  reduce    9.6   18.60   23.519   21.50   28.10   73.5   100

让我们尝试使用更大的list

gargantuan <- setNames(1:2600, paste0(rep(LETTERS, times=100), rep(1:100, each=26)))
li = c(gargantuan, list(a = c(gargantuan, list(b = list(1:3)))))
li[["a"]][["b"]][[1]][[2]]
# [1] 2
### other tests confirm the results are identical

# Unit: microseconds
#    expr    min      lq     mean  median      uq    max neval
#    base   35.8   74.85  132.272  142.85  194.35  211.4   100
#   purrr  102.2  210.60  313.105  354.00  396.80  519.4   100
#     for 2151.8 3082.55 4338.619 4744.00 5354.95 5841.4   100
#  reduce   40.8   94.00  160.764  177.80  223.45  239.5   100

这表明Reduce解决方案仅以文字/常量基础版本为佳,而对于编程的,健壮的解决方案,Reducepurrr::pluck,两个eon都比for循环快。

(注意:我说 robust 指的是基本索引方法,而不是防错或类似方法。它容易受到用户过度索引的影响,因此,更具弹性的方法可能包括预索引检查和/或捕获错误。)

答案 1 :(得分:2)

另一点太长,无法发表评论。对于命名列表,您可以提取名称向量。在这里,您的第三级名为c,以演示:

li = list(a = list(b = list(c = 1:3)))

li[[c('a', 'b', 'c')]]
# [1] 1 2 3

li[[c('a', 'b', 'c')]][2]
# [1] 2

此方法比base稍慢,但比Reduce快。另一方面,它在编程上也可能不像Reduce那样容易,并且需要命名列表的每个级别。

另请参阅: Replacing nested list using a vector of names of depths as an index