不相关的嵌套foreach,外部%dopar%和内部%do%

时间:2014-12-31 21:14:20

标签: r foreach snow rparallel

我使用%dopar%包中的foreach使用doSNOW包并行本地并行运行任务来创建群集(此时在Windows计算机上运行)。我之前已经多次这样做了,它工作正常,直到我使用foreach(即非平行)内部放置一个不相关的%do%循环。然后R给我错误(带回溯):

 Error in { : task 1 failed - "could not find function "%do%""  3 stop(simpleError(msg, call = expr))  2 e$fun(obj, substitute(ex), parent.frame(), e$data)  1 foreach(rc = 1:5) %dopar% {
    aRandomCounter = -1
    if (1 > 0) {
        for (batchi in 1:20) { ...

以下是一些在我的机器上复制问题的代码:

require(foreach)
require(doSNOW)
cl<-makeCluster(5) 
registerDoSNOW(cl)
for(stepi in 1:10)  # normal outer for
{
  foreach(rc=1:5) %dopar% # the time consuming stuff in parallel (not looking to actually retrieve any data)
  {
    aRandomCounter = -1
    if(1 > 0)
    {
      for(batchi in 1:20) 
      {
        anObjectIwantToCreate <- foreach( qrc = 1:100, .combine=c ) %do% 
        {
          return(runif(1)) # I know this is not efficient, it is a placeholder to reproduce the issue
        }
        aRandomCounter = aRandomCounter + sum(anObjectIwantToCreate > 0.5)
      } 
    }
    return(aRandomCounter)
  }
}
stopCluster(cl)

用简单的foreachfor替换内部(l/s)apply是一种解决方案。但是有没有办法让内部foreach使用这个以及为什么首先出现错误?

2 个答案:

答案 0 :(得分:2)

当然,我在发布后立即开始工作(对不起......我会留下它以防其他人有同样的问题)。这是一个范围问题 - 我知道你必须在%dopar%内加载任何外部包,但我没有意识到这包括foreach包本身。这是解决方案:

require(foreach)
require(doSNOW)
cl<-makeCluster(5) 
registerDoSNOW(cl)
for(stepi in 1:10)  # normal outer for
{
  foreach(rc=1:5) %dopar% # the time consuming stuff in parallel (not looking to actually retrieve any data)
  {
    require(foreach) ### the solution
    aRandomCounter = -1
    if(1 > 0) 
    {
      for(batchi in 1:20) 
      {
        anObjectIwantToCreate <- foreach( qrc = 1:100, .combine=c ) %do% 
        {
          return(runif(1))
        }
        aRandomCounter = aRandomCounter + sum(anObjectIwantToCreate > 0.5)
      } 
    }
    return(aRandomCounter)
  }
}
stopCluster(cl)

答案 1 :(得分:0)

  • 我知道这是一个过时的问题,但只是为了给那些提示 没有嵌套的foreach上班的人。
  • 如果通过放置%do% in %dopar%来使外部循环并行化,您将 需要将.packages = c("doSNOW")包括在 外循环(%dopar%),否则会遇到"doSNOW not found"错误。
  • 通常,人们只是并行处理内循环(%dopar%,%:%),这 大量数据(等待内部循环的组合)可能会很慢。