使用每个分区中的_SUCCESS文件将分区数据集写入HDFS / S3

时间:2018-04-26 20:09:50

标签: apache-spark pyspark hdfs

将分区数据集写入HDFS / S3时,成功完成后会将_SUCCESS文件写入输出目录。我很好奇是否有办法将_SUCCESS文件写入每个分区目录?

1 个答案:

答案 0 :(得分:1)

暂时,您可以通过直接将文件写到path/to/table/partition_key1=foo/partition_key2=bar而不使用Parquet编写器的partitionBy参数来获得所需的结果。

FWIW,我也相信应该将_SUCCESS文件写到每个分区,特别是考虑到SPARK-13207SPARK-20236已经解决。