每个列分区上的特定分区数

时间:2020-12-23 14:07:35

标签: amazon-s3 pyspark

我的 s3 路径有前缀,如:s3a://my_data 并有一些分区,如 s3a://my_data/date=20201222s3a://my_data/date=20201221

我想使用以下方法将数据帧以 orc 格式写入 s3 路径:df.write.orc(path=s3a://my_data, partitionBy=date) 将日期分区划分为较小的文件,假设 num 分区为 7所以最后我有 s3a://my_data/date=20201221 有 7 个文件,s3a://my_data/date=20201222 有 7 个文件。

我尝试过使用 df.coalesce(num_partition=7).write.orc(path=s3a://my_data, partitionBy=date) 但它只是将我的 path=s3a://my_data 分区为 7 个文件(这意味着所有日期分区中所有文件的总和为 7)而不是我的日期分区。所以有什么办法可以解决这个案子。

0 个答案:

没有答案