并行使用大量排列:结合iterpc和foreach

时间:2015-12-10 22:05:35

标签: r parallel-processing iterator permutation

Iterpc从同一点开始每个循环。这创造了一个有趣但令人沮丧的问题,如下所示:

####Load Packages:
library("doParallel")
library("foreach")
library("iterpc")

####Define variables:    
n<-2
precision<-0.1 
support<-matrix(seq(0+precision,1-precision,by=precision), ncol=1) 
nodes<-2 #preparing for multicore.
cl<-makeCluster(nodes)

####Prep iterations
I<-iterpc(table(support),n, ordered=TRUE,replace=FALSE)
steps<-((factorial(length(support)) / factorial(length(support)-n)))/n

####Run loop to get the combined values:
registerDoParallel(cl) 
  support_n<-foreach(m=1:n,.packages="iterpc", .combine='cbind') %dopar% {
    t(getnext(I,steps))
  } #????

返回

support_n

我希望这会并行运行每个集合,分配给每个节点的排列的一半。但是,它只进行排列的前半部分......两次。 ([,1]等于[,37]。)如何让它返回所有排列并将它们并行组合?

假设存在任意数量的排列,因此内存管理和速度非常重要。

之前的研究:All possible permutations for large n

3 个答案:

答案 0 :(得分:1)

对于任何人来说,就像我一样,通过搜索“foreach iterpc R”来到这里。 标记为已接受答案的方法与

并没有太大差别
result <- foreach(a=1:10)  %dopar% {
  a
} 

因为a=getnext(I,d=(2*steps))只返回第一个2*steps组合,然后foreach包将在此组合上并行迭代。

iterpc(它是为其构建)返回的组合数量非常大时,您实际上无法使用这种方法。

在这种情况下,我认为唯一能做的就是在iterpc对象上编写迭代器包装器。

# register parallel backend
library(doParallel) 
registerDoParallel(cores = 3)

#create iterpc object
library(iterpc)
combinations <- iterpc(4,2)

library(iterators) 

iterpc_iterator <- function(iterpc_object, iteration_length) {
  # one's own function of nextElement() because iterpc 
  # returns NULL on finished iteration on subsequent getnext() invocation
  # but not 'StopIteration'
  nextEl <- function() {
    if (iteration_length > 0)
      iteration_length <<- iteration_length - 1
    else
      stop('StopIteration')

    getnext(iterpc_object)
  }
  obj <- list(nextElem=nextEl)
  class(obj) <- c('irep', 'abstractiter', 'iter')
  obj
}

it <- iterpc_iterator(combinations, getlength(combinations)) 

library(foreach)
result <- foreach(i=it) %dopar% {
  i
}  

答案 1 :(得分:1)

您只需使用iterpc::iter_wrapper即可。 您示例中的相关行:

support_n <-foreach(a = iter_wrapper(I), .combine='cbind') %dopar% a

答案 2 :(得分:0)

经过进一步调查后,我认为以下情况实际上是并行执行命令。

registerDoParallel(cl) system.time( support_n<-foreach(a=getnext(I,d=(2*steps)),.combine='cbind') %dopar% a ) support_n<-t(support_n)

感谢您的协助。