我想将spark数据帧的内容保存到s3存储桶中的csv文件中:
df_country.repartition(1).write.csv('s3n://bucket/test/csv/a',sep=",",header=True,mode='overwrite')
创建名称为part-00000-fc644e84-7579-48的文件的问题。
有什么办法可以修复此文件的名称。例如test.csv?
谢谢
最佳
答案 0 :(得分:0)
这是不可能的,因为作业中的每个分区都将创建自己的文件,并且必须遵循严格的约定以避免命名冲突。推荐的解决方案是在创建文件后重命名该文件。
此外,如果您知道每个路径只写入一个文件。
例如s3n://bucket/test/csv/a
。那么文件的名称实际上并不重要,只需读取该唯一目录名称的所有内容即可。
来源: 1. Specifying the filename when saving a DataFrame as a CSV 2. Spark dataframe save in single file on hdfs location