我的 s3 路径有前缀,如:s3a://my_data
并有一些分区,如 s3a://my_data/date=20201222
或 s3a://my_data/date=20201221
。
我想使用以下方法将数据帧以 orc 格式写入 s3 路径:df.write.orc(path=s3a://my_data
, partitionBy=date) 将日期分区划分为较小的文件,假设 num 分区为 7所以最后我有 s3a://my_data/date=20201221
有 7 个文件,s3a://my_data/date=20201222
有 7 个文件。
我尝试过使用 df.coalesce(num_partition=7).write.orc(path=s3a://my_data
, partitionBy=date)
但它只是将我的 path=s3a://my_data
分区为 7 个文件(这意味着所有日期分区中所有文件的总和为 7)而不是我的日期分区。所以有什么办法可以解决这个案子。