我将检查spark中的故障恢复能力。 有一些解决方案可以容忍执行程序,驱动程序和主程序中的错误。对于执行者,工人重新启动它。对于司机我们可以使用管理员模式。对于master我们可以使用备用master。
但是如果一个工人流程下降,谁必须重启呢?它似乎像其他主工作系统一样,主人必须这样做,但不是!
正如我们在http://techblog.netflix.com/2015/03/can-spark-streaming-survive-chaos-monkey.html中看到的那样,据说" 工作进程会自动重新启动",但是在我的系统中如果工作进程死了,它永远不会重新启动。重启工人的解决方案是什么?