写入 Parquet 过程中出现错误时,Spark 重写而不清除错误输出

时间:2020-12-31 18:35:49

标签: apache-spark parquet

当我使用 Spark 将 Parquet 数据写入输出路径时,我从 Spark UI 中发现以下内容:

  1. 有两个 save() 作业。第一个失败。第二个成功了。 (当我检查正常运行的 Spark UI 时,只有一个成功的 save() 作业)
  2. 当我检查输出时,我发现有些行是重复的。

结合以上两点,这些重复的行是由第一个失败的save()作业写入的。 Spark重新运行作业时,并没有清除上次失败的输出,而是直接将输出与失败的输出一起写入。

这给我带来了很大的不便。我该如何处理这种情况?

0 个答案:

没有答案