将 pyspark 数据帧保存到多个 AWS S3 存储桶

时间:2021-04-30 05:33:21

标签: amazon-web-services apache-spark amazon-s3 pyspark

我目前正在研究用例,其中

  1. 我想将每个分区写入不同的 S3 存储桶。
  2. 想知道,如果我将整个数据帧写入大小约为 50GB 的单个 S3 存储桶中,那么假设我以 JSON 格式写入数据,则保存的数据在存储桶中的样子;更具体地说,保存数据帧时 S3 中的文件名是什么。

1 个答案:

答案 0 :(得分:1)

首先,为什么要把每个分区写在一个单独的bucket中?

对于您的第二个问题:保存的数据取决于您保存到 S3 的分区数量。您始终可以通过对数据框调用 .repartition() 来重新分区数据。由于文件以 Hadoop 文件格式保存,因此名称将包含一些特定数字和类似于以下内容的 -part 后缀:part-block-0-0-r-00000-.json