Question

我们正在使用spark运行批处理，并使用spark-submit通过选项提交我们的作业

--deploy-mode cluster \
--master yarn-cluster \

我们基本上采用csv文件并对这些文件进行一些处理，并从中创建一个镶木地板文件。我们使用配置文件在同一个spark submit命令中运行多个文件。现在假设我们正在处理10个文件，如果进程失败，请说文件6 Spark再次尝试重新运行该进程，它将处理所有文件直到文件6并为之前的所有5个文件写入重复记录失败。我们正在创建Parquet个文件，因此我们无法控制这些文件的名称，但它始终会创建唯一的名称。

有没有办法可以更改Spark属性，不重新执行失败的进程？

Answer 1

属性spark.yarn.maxAppAttempts在我的情况下工作我在spark提交命令中将其值设置为1：

--conf "spark.yarn.maxAppAttempts=1"

如果在集群模式下出现故障，如何防止运行spark提交两次？

1 个答案: