如何在崩溃后重新启动Spark执行程序(在YARN客户端模式下)?

时间:2016-07-31 07:48:57

标签: python-2.7 apache-spark pyspark yarn

崩溃后是否有可能重新启动Spark执行程序?我知道失败的任务会在现有的Spark执行程序中重新运行,但我希望有一种方法可以重新启动崩溃的Spark执行程序。

我在YARN上以客户端模式运行pyspark 1.6

1 个答案:

答案 0 :(得分:2)

没有。这不可能。 Spark会处理它,当执行程序死掉时,它会在下次请求资源容器时请求新的容器。执行者。

如果执行者接近要处理的数据,Spark将根据任务的位置偏好请求新的执行者,并且可能再次使用执行者已经死亡的主机来运行新的执行者。

执行程序是一个JVM进程,它为任务生成线程并且实际上没有做太多工作。如果你关注数据块,你应该考虑使用Spark的外部shuffle服务。

请考虑阅读官方文档中的文档Job Scheduling