Question

我想将spark数据帧的内容保存到s3存储桶中的csv文件中：

df_country.repartition(1).write.csv('s3n://bucket/test/csv/a',sep=",",header=True,mode='overwrite')

创建名称为part-00000-fc644e84-7579-48的文件的问题。

有什么办法可以修复此文件的名称。例如test.csv？

谢谢

最佳

Answer 1

这是不可能的，因为作业中的每个分区都将创建自己的文件，并且必须遵循严格的约定以避免命名冲突。推荐的解决方案是在创建文件后重命名该文件。

此外，如果您知道每个路径只写入一个文件。例如s3n://bucket/test/csv/a。那么文件的名称实际上并不重要，只需读取该唯一目录名称的所有内容即可。