我目前正在研究用例,其中
JSON
格式写入数据,则保存的数据在存储桶中的样子;更具体地说,保存数据帧时 S3 中的文件名是什么。答案 0 :(得分:1)
首先,为什么要把每个分区写在一个单独的bucket中?
对于您的第二个问题:保存的数据取决于您保存到 S3 的分区数量。您始终可以通过对数据框调用 .repartition()
来重新分区数据。由于文件以 Hadoop 文件格式保存,因此名称将包含一些特定数字和类似于以下内容的 -part 后缀:part-block-0-0-r-00000-.json