在Spark中写入指定的Parquet文件名

时间:2015-10-27 13:57:05

标签: apache-spark sparkr

我正在使用SparkR,我想将write.df用作特定文件夹:

write.df(my.sdf,path='/path/to/folder/',source='parquet')

理想情况下,我想指定一个完整的路径名,即/path/to/folder/this_parquet_file.parquet.gz

这有可能吗?

1 个答案:

答案 0 :(得分:3)

简而言之:否。

您可以使用coalesce(1)来减少镶木地板文件夹中的文件数量,但这就是它。写入执行器的输出将始终产生多个文件,因为它是如何设计的。