将分区数据集写入HDFS / S3时,成功完成后会将_SUCCESS文件写入输出目录。我很好奇是否有办法将_SUCCESS文件写入每个分区目录?
答案 0 :(得分:1)
暂时,您可以通过直接将文件写到path/to/table/partition_key1=foo/partition_key2=bar
而不使用Parquet编写器的partitionBy
参数来获得所需的结果。
FWIW,我也相信应该将_SUCCESS
文件写到每个分区,特别是考虑到SPARK-13207和SPARK-20236已经解决。