Spark 2-第二(第三...)尝试重用已经兑现的数据还是从头开始?

时间:2018-09-11 08:27:15

标签: apache-spark

  • 配置spark.yarn.maxAppAttempts = 2(或yarn.resourcemanager.am.max-attempts=2
  • 我在某个阶段df.cache()完成了该阶段
  • 然后,无论出于何种原因(例如某些GC内存故障),第一次尝试都会失败

下一次尝试是利用已经计算的缓存数据还是全新的分离计算?

相关但不完全相同: How to limit the number of retries on Spark job failure?

0 个答案:

没有答案