如果在集群模式下出现故障,如何防止运行spark提交两次?

时间:2017-03-29 19:17:20

标签: apache-spark spark-dataframe

我们正在使用spark运行批处理,并使用spark-submit通过选项提交我们的作业

--deploy-mode cluster \
--master yarn-cluster \

我们基本上采用csv文件并对这些文件进行一些处理,并从中创建一个镶木地板文件。我们使用配置文件在同一个spark submit命令中运行多个文件。现在假设我们正在处理10个文件,如果进程失败,请说文件6 Spark再次尝试重新运行该进程,它将处理所有文件直到文件6并为之前的所有5个文件写入重复记录失败。我们正在创建Parquet个文件,因此我们无法控制这些文件的名称,但它始终会创建唯一的名称。

有没有办法可以更改Spark属性,不重新执行失败的进程?

1 个答案:

答案 0 :(得分:3)

属性spark.yarn.maxAppAttempts在我的情况下工作我在spark提交命令中将其值设置为1:

--conf "spark.yarn.maxAppAttempts=1"