获取spark数据帧写入的文件名

时间:2018-06-18 11:50:27

标签: python dataframe amazon-s3 pyspark filenames

我正在使用以下代码将spark数据帧写入s3存储桶。

spark_df. \
coalesce(1). \
write. \
option("header", "true"). \
mode("overwrite"). \
csv(bucket_name + "/" + bucket_path + "/csv")

这里我想获取写入s3 bukcet的文件的名称,并希望将该文件用作以后代码部分的一部分。

Specifying the filename when saving a DataFrame as a CSV

我已经完成了上述问题,因为在将数据帧写入s3存储桶时我们无法提供文件名。

我正在考虑迭代s3存储桶并根据最新的时间戳获取文件(通常一次写入一个文件)。

根据最新的时间戳,有人可以建议我如何从s3存储桶中获取文件名(使用python)

1 个答案:

答案 0 :(得分:0)

作业中的每个分区都会创建自己的文件。而是逐个目录地工作:创建的所有文件都是输出。也许如果您使用.repartition(1)可以将所有内容合并为一个文件-您可以在那里尝试一些实验