我现在正处理大型数据集,某些功能可能需要数小时才能处理完毕。我想知道如何通过进度条或数字(1,2,3,...,100)显示代码的进度。我想将结果存储为具有两列的数据框。这是一个例子。感谢。
require(foreach)
require(doParallel)
require(Kendall)
cores=detectCores()
cl <- makeCluster(cores-1)
registerDoParallel(cl)
mydata=matrix(rnorm(8000*500),ncol = 500)
result=as.data.frame(matrix(nrow = 8000,ncol = 2))
pb <- txtProgressBar(min = 1, max = 8000, style = 3)
foreach(i=1:8000,.packages = "Kendall",.combine = rbind) %dopar%
{
abc=MannKendall(mydata[i,])
result[i,1]=abc$tau
result[i,2]=abc$sl
setTxtProgressBar(pb, i)
}
close(pb)
stopCluster(cl)
但是,当我运行代码时,我没有看到任何进度条显示,结果不正确。有什么建议吗?感谢。
答案 0 :(得分:10)
doSNOW包支持进度条,而doParallel则不支持。这是在您的示例中放置进度条的方法:
require(doSNOW)
require(Kendall)
cores <- parallel::detectCores()
cl <- makeSOCKcluster(cores)
registerDoSNOW(cl)
mydata <- matrix(rnorm(8000*500), ncol=500)
pb <- txtProgressBar(min=1, max=8000, style=3)
progress <- function(n) setTxtProgressBar(pb, n)
opts <- list(progress=progress)
result <-
foreach(i=1:8000, .packages="Kendall", .options.snow=opts,
.combine='rbind') %dopar% {
abc <- MannKendall(mydata[i,])
data.frame(tau=abc$tau, sl=abc$sl)
}
close(pb)
stopCluster(cl)
答案 1 :(得分:1)
我认为pbapply软件包也可以完成这项工作。
require(parallel)
require(pbapply)
mydata=matrix(rnorm(8000*500),ncol = 500)
cores=detectCores()
cl <- makeCluster(cores-1)
parallel::clusterExport(cl= cl,varlist = c("mydata"))
parallel::clusterEvalQ(cl= cl,library(Kendall))
result = pblapply(cl = cl,
X = 1:8000,
FUN = function(i){
abc=MannKendall(mydata[i,])
result = as.data.frame(matrix(nrow = 1,ncol = 2))
result[1,1]=abc$tau
result[1,2]=abc$sl
return(result)
})
result = dplyr::bind_rows(result)
stopCluster(cl)
根据文档,如果通过cl
提供了套接字集群,则它将调用parLapply()
可以通过cl参数启用并行处理。当cl为a时调用parLapply 当cl为整数时,将调用“群集”对象mclapply。