在foreach中使用glm的问题

时间:2017-03-08 17:11:32

标签: r foreach glm

我正在尝试使用foreach循环来娱乐多个glms。我得到的问题是当我尝试指定权重时,它表示找不到对象。下面是重现我遇到的问题的代码。

library(foreach)
library(doParallel)

registerDoParallel(cores=4)  
getDoParWorkers()



train_samples<-vector(mode="list", length=4)
for(i in 1:4){
  train_samples[[i]]<-sample(nrow(mtcars),nrow(mtcars)*.8,replace=FALSE)
}

train_samples
d_data<-mtcars
#Add a weights column to illustrate the issue. The actual weights would vary.
d_data$weights = 1 

#This results in an error: object 'd_data' not found
foreach(k=1:4) %dopar%{
  model.fit<-glm(formula='hp~cyl+disp+mpg',
                 family=poisson,
                 data=d_data[train_samples[[k]],],
                 weights=d_data[train_samples[[k]],12])
}

#Removing the weights condition makes it run fine.
foreach(k=1:4) %dopar%{
  model.fit<-glm(formula='hp~cyl+disp+mpg',
                 family=poisson,
                 data=d_data[train_samples[[k]],])
}

我已经在网上寻找解决方案,但一直找不到任何东西。我想知道为什么这是一个问题,以及如何解决它。提前谢谢!

编辑1:我在下面添加了另一个例子。

w1<-numeric(25)+1

#This has the same problem with object w1 not being found.
#Setting .export="w1" doesn't help either
foreach(k=1:4, .export="w1") %dopar%{
  model.fit<-glm(formula='hp~cyl+disp+mpg',
                 family=poisson,
                 data=d_data[train_samples[[k]],],
                 weights=w1)
}

#However, manually defining a numeric vector for weights works
foreach(k=1:4) %dopar%{
  model.fit<-glm(formula='hp~cyl+disp+mpg',
                 family=poisson,
                 data=d_data[train_samples[[k]],],
                 weights=numeric(25)+1)
}

编辑2:版本信息。

Windows 10
RStudio版本:1.0.136
R版本:3.3.1
foreach版本:1.4.3
doParallel版本:1.0.10

2 个答案:

答案 0 :(得分:0)

我能够复制你的错误。我不确定它为什么会出现,但我提出了一个有效的解决方案。

如果你将你的glm函数从循环中取出并创建一个单独的函数,然后在循环中使用它就可以了。

model <- function(k, input_data, samples){

  samples <- samples[[k]]
  input_data <- input_data[samples,]
  weights <- input_data[samples, 12]
  print(weights)

  model.fit <- glm(formula = 'hp ~ cyl + disp + mpg',
                 family = poisson,
                 data = input_data,
                 weights = weights)

  return(model.fit)
}


trial.data <- foreach(k = 1:4, 
                      .errorhandling = 'pass') %dopar% {
                        model(k, d_data, train_samples)
                      }

print(trial.data)

此外,如果您使用.errorhandling,它会为您提供更多信息,这些信息有时非常有用(在这种情况下不是,但只是fyi)。

希望这适合你。

答案 1 :(得分:0)

迟到了,但问题是 glm() 首先在数据环境中寻找权重,然后是公式。当您使用 %dopar% 并行运行时,您提供的权重向量不会出现在这些环境中。引用全局环境可以让代码正确运行:

foreach(k=1:4) %dopar% {
  #Create a weight vector, saves on globalenv() references later
  w=d_data[train_samples[[k]],12]
  model.fit<-glm(formula='hp~cyl+disp+mpg',
                 family=poisson,
                 data=d_data[train_samples[[k]],],
                 #Instruct glm() to look in the global environment for weights
                 weights=globalenv()$w)
}