Question

我正在使用以下代码将spark数据帧写入s3存储桶。

spark_df. \
coalesce(1). \
write. \
option("header", "true"). \
mode("overwrite"). \
csv(bucket_name + "/" + bucket_path + "/csv")

这里我想获取写入s3 bukcet的文件的名称，并希望将该文件用作以后代码部分的一部分。

我已经完成了上述问题，因为在将数据帧写入s3存储桶时我们无法提供文件名。

我正在考虑迭代s3存储桶并根据最新的时间戳获取文件（通常一次写入一个文件）。

根据最新的时间戳，有人可以建议我如何从s3存储桶中获取文件名（使用python）

Answer 1

作业中的每个分区都会创建自己的文件。而是逐个目录地工作：创建的所有文件都是输出。也许如果您使用.repartition（1）可以将所有内容合并为一个文件-您可以在那里尝试一些实验