amazon-s3 - 每个列分区上的特定分区数

我的 s3 路径有前缀，如：s3a://my_data 并有一些分区，如 s3a://my_data/date=20201222 或 s3a://my_data/date=20201221。

我想使用以下方法将数据帧以 orc 格式写入 s3 路径：df.write.orc(path=s3a://my_data, partitionBy=date) 将日期分区划分为较小的文件，假设 num 分区为 7所以最后我有 s3a://my_data/date=20201221 有 7 个文件，s3a://my_data/date=20201222 有 7 个文件。

我尝试过使用 df.coalesce(num_partition=7).write.orc(path=s3a://my_data, partitionBy=date) 但它只是将我的 path=s3a://my_data 分区为 7 个文件（这意味着所有日期分区中所有文件的总和为 7）而不是我的日期分区。所以有什么办法可以解决这个案子。

每个列分区上的特定分区数

0 个答案: