在R中有效地创建向量的紊乱

时间:2017-08-02 11:29:12

标签: r performance vector permutation

我正在研究一种在R中有效地创建向量的紊乱(以及相反的特定排列)的方法。 就我所见,没有任何基本功能可以做到这一点,而且在SO上也没有太多关于它的内容。

一个明显的开始是sample,它创建了一个向量的排列。但我需要这种排列没有固定点,因此是矢量的紊乱。有关此主题的详细说明,请参阅this Cross Validated post

这是我的第一个方法:

derangr <- function(x){

  while(TRUE){

    xp <- sample(x)

     if(sum(xp == x) == 0) break

  }

  return(xp)

}

因此,在while循环中,我会检查向量xx的给定排列xp之间是否存在固定点。 }。如果没有,我打破循环并返回向量。

结果显示,它运行良好:

> derangr(1:10)
 [1]  4  5  6 10  7  2  1  9  3  8

> derangr(LETTERS)
 [1] "C" "O" "L" "J" "A" "I" "Y" "M" "G" "T" "S" "R" "Z" "V" "N" "K" "D" "Q" "B" "H" "F" "E" "X" "W" "U" "P"

所以我想知道是否有更好的方法,可能会用while代替某种类型的矢量化。我还想关注可扩展性。

这两个例子都是microbenchmark

library(microbenchmark)

> microbenchmark(derangr(1:10),times = 10000)
Unit: microseconds
          expr   min     lq    mean  median      uq      max neval
 derangr(1:10) 8.359 15.492 40.1807 28.3195 49.4435 6866.453 10000

> microbenchmark(derangr(LETTERS),times = 10000)
Unit: microseconds
             expr    min     lq     mean  median      uq      max neval
 derangr(LETTERS) 24.385 31.123 34.75819 32.4475 34.3225 10200.17 10000

同样的问题适用于相反的情况,产生具有给定固定点数的排列n

arrangr <- function(x,n){

  while(TRUE){

    xp <- sample(x)

     if(sum(xp == x) == n) break
  }

  return(xp)

}

1 个答案:

答案 0 :(得分:1)

如果您不具有唯一值,则可以重新排列索引,并将其用于按新顺序对输入向量进行子集化。在这种情况下,如果您有rep(LETTERS, 2),则第一个A和第二个A可以互换。 Q中提出的derangr()函数也会重新排列这些函数。

derangr2 <- function(x){
  ind <- seq_along(x)
  while(TRUE){
    indp <- sample(ind)
    if(sum(indp == ind) == 0) break

  }
  return(x[indp])
}

一些基准测试结果:

microbenchmark(derangr(rep(LETTERS, 4)), 
               derangr2(rep(LETTERS, 4)), times = 1000)

# Unit: microseconds
#                      expr   min       lq       mean  median      uq      max neval
#  derangr(rep(LETTERS, 4)) 6.258 113.4895 441.831094 251.724 549.384 5837.143  1000
# derangr2(rep(LETTERS, 4)) 6.542   7.3960  23.173800  12.800  22.755 4645.936  1000

但是,如果您只面对独特的价值观,这种方法并没有带来很多改进。

microbenchmark(derangr(1:1000), derangr2(1:1000), times = 1000)
# Unit: microseconds
#             expr    min     lq     mean median      uq      max neval
#  derangr(1:1000) 19.341 21.333 61.55154 40.959 78.0775 2770.382  1000
# derangr2(1:1000) 23.608 25.884 72.76647 46.079 84.1930 2674.243  1000