我有一套我想要处理的公司。每个公司需要一段时间来处理,所以我想并行化它。我有两个问题:
这是我在想的事情。这是非常简化的,但很明确地传达了这一点:
require(data.table)
dtb = data.table(data.frame(a=1:100, id=1:2), key="id")
save(dataf, file="mydata.RData")
#now launch a session that accepts the id argument
args = commandArgs(trailingOnly = TRUE)
theid = as.integer(args[1])
load("mydata.RData")
r = dtb[id == theid,sum(a)]
write.csv(r, "myfile.csv", append=TRUE)
这显然会非常快,但我每家公司都会进行大量滚动回归,所以它有点慢,但每个流程都是独立的。 请注意,我想在启动会话的不同节点的LSF网格上运行此命令。目前我只提交几个带参数的作业。我想要一个更好的方法。