我正在尝试设置一个火花群,我遇到了一个烦人的bug ... 当我提交一个spark应用程序时,它会在worker上运行正常,直到我杀死一个(例如在worker节点上使用stop-slave.sh)。 当工作人员被杀时,spark会尝试在可用的工作节点上重新启动执行程序,但每次都会失败(我知道因为webUI对执行程序显示FAILED或LAUNCHING,它永远不会成功)。
我似乎无法找到任何帮助,即使是在文档上,也有人向我保证,火花可以和将尝试重新启动工作人员如果一个节点被杀死(在工作者先前运行的同一节点上,或者在另一个可用节点上,如果之前排名的节点无法访问)?
这是工作节点的输出:
Spark worker error 谢谢你的帮助!