我正在使用write方法将spark DataFrame写入S3, 并且想知道是否有一种方法可以解析确切的输出文件路径。
数据是由某些分区键写入的,因此它位于多个位置。 这是我正在使用的内容的一小段内容:
df.write
.format(outputFormat)
.partitionBy(partitions: _*)
.save(path = s3_path)
当前,我要在写操作后解析不同的分区键并自己创建完整路径(到目前为止,我只需要通用的“目录”,所以我没有解析part-*。format)。 / p>
我曾考虑过使用S3 ListObjectsV2解析完整路径,但是整个过程对我来说似乎有点麻烦(此后我还要避免解析分区键)。
有更好的方法吗?