我正在尝试使用foreach循环来娱乐多个glms。我得到的问题是当我尝试指定权重时,它表示找不到对象。下面是重现我遇到的问题的代码。
library(foreach)
library(doParallel)
registerDoParallel(cores=4)
getDoParWorkers()
train_samples<-vector(mode="list", length=4)
for(i in 1:4){
train_samples[[i]]<-sample(nrow(mtcars),nrow(mtcars)*.8,replace=FALSE)
}
train_samples
d_data<-mtcars
#Add a weights column to illustrate the issue. The actual weights would vary.
d_data$weights = 1
#This results in an error: object 'd_data' not found
foreach(k=1:4) %dopar%{
model.fit<-glm(formula='hp~cyl+disp+mpg',
family=poisson,
data=d_data[train_samples[[k]],],
weights=d_data[train_samples[[k]],12])
}
#Removing the weights condition makes it run fine.
foreach(k=1:4) %dopar%{
model.fit<-glm(formula='hp~cyl+disp+mpg',
family=poisson,
data=d_data[train_samples[[k]],])
}
我已经在网上寻找解决方案,但一直找不到任何东西。我想知道为什么这是一个问题,以及如何解决它。提前谢谢!
编辑1:我在下面添加了另一个例子。
w1<-numeric(25)+1
#This has the same problem with object w1 not being found.
#Setting .export="w1" doesn't help either
foreach(k=1:4, .export="w1") %dopar%{
model.fit<-glm(formula='hp~cyl+disp+mpg',
family=poisson,
data=d_data[train_samples[[k]],],
weights=w1)
}
#However, manually defining a numeric vector for weights works
foreach(k=1:4) %dopar%{
model.fit<-glm(formula='hp~cyl+disp+mpg',
family=poisson,
data=d_data[train_samples[[k]],],
weights=numeric(25)+1)
}
编辑2:版本信息。
Windows 10
RStudio版本:1.0.136
R版本:3.3.1
foreach版本:1.4.3
doParallel版本:1.0.10
答案 0 :(得分:0)
我能够复制你的错误。我不确定它为什么会出现,但我提出了一个有效的解决方案。
如果你将你的glm函数从循环中取出并创建一个单独的函数,然后在循环中使用它就可以了。
model <- function(k, input_data, samples){
samples <- samples[[k]]
input_data <- input_data[samples,]
weights <- input_data[samples, 12]
print(weights)
model.fit <- glm(formula = 'hp ~ cyl + disp + mpg',
family = poisson,
data = input_data,
weights = weights)
return(model.fit)
}
trial.data <- foreach(k = 1:4,
.errorhandling = 'pass') %dopar% {
model(k, d_data, train_samples)
}
print(trial.data)
此外,如果您使用.errorhandling
,它会为您提供更多信息,这些信息有时非常有用(在这种情况下不是,但只是fyi)。
希望这适合你。
答案 1 :(得分:0)
迟到了,但问题是 glm()
首先在数据环境中寻找权重,然后是公式。当您使用 %dopar%
并行运行时,您提供的权重向量不会出现在这些环境中。引用全局环境可以让代码正确运行:
foreach(k=1:4) %dopar% {
#Create a weight vector, saves on globalenv() references later
w=d_data[train_samples[[k]],12]
model.fit<-glm(formula='hp~cyl+disp+mpg',
family=poisson,
data=d_data[train_samples[[k]],],
#Instruct glm() to look in the global environment for weights
weights=globalenv()$w)
}