有没有一种方法可以解析DataFrame.write的确切文件路径?

时间:2019-11-04 09:09:12

标签: apache-spark amazon-s3 amazon-emr

我正在使用write方法将spark DataFrame写入S3, 并且想知道是否有一种方法可以解析确切的输出文件路径。

数据是由某些分区键写入的,因此它位于多个位置。 这是我正在使用的内容的一小段内容:

    df.write
      .format(outputFormat)
      .partitionBy(partitions: _*)
      .save(path = s3_path)

当前,我要在写操作后解析不同的分区键并自己创建完整路径(到目前为止,我只需要通用的“目录”,所以我没有解析part-*。format)。 / p>

我曾考虑过使用S3 ListObjectsV2解析完整路径,但是整个过程对我来说似乎有点麻烦(此后我还要避免解析分区键)。

有更好的方法吗?

0 个答案:

没有答案