我正在使用以下代码将spark数据帧写入s3存储桶。
spark_df. \
coalesce(1). \
write. \
option("header", "true"). \
mode("overwrite"). \
csv(bucket_name + "/" + bucket_path + "/csv")
这里我想获取写入s3 bukcet的文件的名称,并希望将该文件用作以后代码部分的一部分。
Specifying the filename when saving a DataFrame as a CSV
我已经完成了上述问题,因为在将数据帧写入s3存储桶时我们无法提供文件名。
我正在考虑迭代s3存储桶并根据最新的时间戳获取文件(通常一次写入一个文件)。
根据最新的时间戳,有人可以建议我如何从s3存储桶中获取文件名(使用python)
答案 0 :(得分:0)
作业中的每个分区都会创建自己的文件。而是逐个目录地工作:创建的所有文件都是输出。也许如果您使用.repartition(1)可以将所有内容合并为一个文件-您可以在那里尝试一些实验