标签: apache-spark yarn high-availability
在纱线群集模式下运行火花应用程序我的驱动程序似乎已经重新启动了。这导致从头开始重新处理所有数据(我正在编写几个表并散列一些数据,一些表已经完成)。
有没有办法防止这种情况发生并为驱动程序引入高可用性?
答案 0 :(得分:4)
您的驱动程序重新启动的事实是Spark对HA的解释。发生错误时会触发重启。
您可以使用以下属性控制尝试次数
spark.yarn.maxAppAttempts
将其传递给您的工作机会中的hadoop配置设置。