标签: apache-spark parquet
当我使用 Spark 将 Parquet 数据写入输出路径时,我从 Spark UI 中发现以下内容:
save()
结合以上两点,这些重复的行是由第一个失败的save()作业写入的。 Spark重新运行作业时,并没有清除上次失败的输出,而是直接将输出与失败的输出一起写入。
这给我带来了很大的不便。我该如何处理这种情况?