应用错误收集

使用每个分区中的_SUCCESS文件将分区数据集写入HDFS / S3

时间：2018-04-26 20:09:50

标签： apache-spark pyspark hdfs

将分区数据集写入HDFS / S3时，成功完成后会将_SUCCESS文件写入输出目录。我很好奇是否有办法将_SUCCESS文件写入每个分区目录？

1 个答案:

答案 0 :(得分：1)

暂时，您可以通过直接将文件写到path/to/table/partition_key1=foo/partition_key2=bar而不使用Parquet编写器的partitionBy参数来获得所需的结果。

FWIW，我也相信应该将_SUCCESS文件写到每个分区，特别是考虑到SPARK-13207和SPARK-20236已经解决。