Question

在使用覆盖模式时，我会产生火花：

  .repartition(10)
      .write
      .mode("overwrite")

这可以正常工作，但是由于一些代码错误，我们最终开始同时执行同一作业的多个操作，并最终在s3文件夹中使用重复数据。

如果否，

Answer 1

有没有办法处理并发和覆盖模式？

并非没有更高层次的协调

有没有办法快速失败？

请勿使用覆盖

一般约定是“写某处然后重命名到位”，依靠重命名是专门提交工作的快速原子手段。但是由于S3不能那样工作，因此您也不能依赖它。

Answer 2

在Spark中，默认最大尝试次数为两次。在Spark提交命令--conf spark.yarn.maxAppAttempts = 1

中将此设置为1。