如何并行化combn()?

时间:2016-02-09 20:54:16

标签: r parallel-processing combinations combinatorics

函数combn()一次生成m个元素的所有组合。对于nCm small来说非常快速有效(其中n是x的元素数),但它很快就耗尽了内存。例如:

> combn(c(1:50), 12, simplify = TRUE)
Error in matrix(r, nrow = len.r, ncol = count) : 
invalid 'ncol' value (too large or NA)

我想知道是否可以修改函数combn(),使其仅生成k个选定的组合。让我们将这个新函数调用为combn()。然后我们会:

> combn(c("a", "b", "c", "d"), m=2)
     [,1] [,2] [,3] [,4] [,5] [,6]
 [1,] "a"  "a"  "a"  "b"  "b"  "c" 
 [2,] "b"  "c"  "d"  "c"  "d"  "d" 

>chosencombn(c("a", "b", "c", "d"), m=2, i=c(1,4,6))
     [,1] [,2] [,3]
 [1,] "a"  "b"  "c" 
 [2,] "b"  "c"  "d"

>chosencombn(c("a", "b", "c", "d"), m=2, i=c(4,5))
     [,1] [,2]
 [1,] "b"  "b" 
 [2,] "c"  "d" 

我知道这样的功能需要使用组合的排序,以便可以立即找到给定组合的位置。 这样的排序是否存在?可以编码以获得与combn()一样有效的函数吗?

2 个答案:

答案 0 :(得分:4)

要了解combn如何命令其输出,让我们看一下combn(1:5, 3)的输出:

combn(1:5, 3)
#      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
# [1,]    1    1    1    1    1    1    2    2    2     3
# [2,]    2    2    2    3    3    4    3    3    4     4
# [3,]    3    4    5    4    5    5    4    5    5     5

这里有很多结构。首先,所有列在向下时排序,第一行不减少。以1开头的列在它们下面有combn(2:5, 2);以2开头的列在它们下面有combn(3:5, 2);等等。

现在让我们考虑如何构建第8列。我将重建的方法是确定该列的第一个元素(由于上面的关系,有choose(4, 2)=6列以1开头,{ {1}}列以2开头,choose(3, 2)=3列以3开头。在我们的例子中,我们确定从2开始,因为第7-9列必须以2开头。

为了确定列的第二个和后续元素,我们用较少数量的元素重复该过程(因为2是我们的第一个元素,我们现在从元素3-5中选择),一个新的位置(我们'重新选择以2)开头的列号8-6 = 2,以及要选择的新数量的剩余元素(我们需要3-1 = 2个元素)。

下面的

choose(2, 2)=1是一个迭代的公式,就是这样:

getcombn

这使您可以在无法枚举所有组合的情况下计算特定列(您将耗尽内存)。例如,有50个选项,选择25个元素的方法的数量是14位数,因此枚举所有组合可能不是一个选项。您仍然可以计算特定的指定组合:

getcombn <- function(x, m, pos) {
  combo <- rep(NA, m)
  start <- 1
  for (i in seq_len(m-1)) {
    end.pos <- cumsum(choose((length(x)-start):(m-i), m-i))
    selection <- which.max(end.pos >= pos)
    start <- start + selection
    combo[i] <- x[start - 1]
    pos <- pos - c(0, end.pos)[selection]
  }
  combo[m] <- x[start + pos - 1]
  combo
}

chosencombn <- function(x, m, all.pos) {
  sapply(all.pos, function(pos) getcombn(x, m, pos))
}
chosencombn(c("a", "b", "c", "d"), 2, c(1,4,6))
#     [,1] [,2] [,3]
# [1,] "a"  "b"  "c" 
# [2,] "b"  "c"  "d" 
chosencombn(c("a", "b", "c", "d"), 2, c(4,5))
#     [,1] [,2]
# [1,] "b"  "b" 
# [2,] "c"  "d" 

答案 1 :(得分:1)

"trotter"对此非常有用,因为它不会将排列保留在内存中。

library(trotter)

combs = cpv(2, c("a", "b", "c", "d"))
sapply(c(1, 4, 6), function(i) combs[i])
#     [,1] [,2] [,3]
#[1,] "a"  "b"  "c" 
#[2,] "b"  "c"  "d"