我正在使用SOCK群集与本地计算机上的worker一起运行并行操作。如果我限制我正在迭代的集合(在一次测试中使用70而不是完整的135个任务)那么一切正常。如果我去全套,我得到错误“反序列化错误(socklist [[n]]):从连接读取错误”。
我已取消阻止Windows防火墙中的端口(进/出)并允许Rscript / R的所有访问。
它不能是超时问题,因为套接字超时设置为365天。
它不是任何特定任务的问题,因为我可以按顺序运行(如果我将数据集分成两半并进行两次单独的并行运行,也可以并行运行)
我能想到的最好的是,通过套接字传输的数据太多了。似乎没有一个群集选项来限制数据限制。
我对如何继续感到茫然。有没有人见过这个问题或者可以建议修复?
以下是我用来设置群集的代码:
cluster = makeCluster( degreeOfParallelism , type = "SOCK" , outfile = "" )
registerDoSNOW( cluster )
修改的
虽然这个问题与整个数据集有关,但它也会随着数据集的减少而不时出现。这可能表明这不仅仅是数据限制问题。
编辑2
我挖得更深一些,事实证明我的函数实际上有一个随机组件,这使得有时任务会引发错误。如果我按顺序运行任务,那么在操作结束时,我被告知哪个任务失败了。如果我并行运行,那么我会收到“unserialize”错误。我尝试在tryCatch调用中使用error = function(e){stop(e)}包装由每个任务执行的代码,但这也会生成“unserialize”错误。我很困惑,因为我认为雪会把它们传回主人来处理错误吗?
答案 0 :(得分:2)
我已经向SNOW的作者报告了这个问题,但不幸的是没有回复。
修改的
我有一段时间没见过这个问题。我搬到了Parallel / doParallel。此外,我现在使用try()来包装任何并行执行的代码。我不能重复原来的问题。