我们正在使用spark运行批处理,并使用spark-submit
通过选项提交我们的作业
--deploy-mode cluster \
--master yarn-cluster \
我们基本上采用csv文件并对这些文件进行一些处理,并从中创建一个镶木地板文件。我们使用配置文件在同一个spark submit命令中运行多个文件。现在假设我们正在处理10个文件,如果进程失败,请说文件6 Spark再次尝试重新运行该进程,它将处理所有文件直到文件6并为之前的所有5个文件写入重复记录失败。我们正在创建Parquet
个文件,因此我们无法控制这些文件的名称,但它始终会创建唯一的名称。
有没有办法可以更改Spark属性,不重新执行失败的进程?
答案 0 :(得分:3)
属性spark.yarn.maxAppAttempts
在我的情况下工作我在spark提交命令中将其值设置为1:
--conf "spark.yarn.maxAppAttempts=1"