使用partitionBy写入现有目录Dataframe

时间:2017-08-02 23:18:03

标签: scala apache-spark

在下面的代码中,我无法将数据帧写入现有目录,它只是从spark提交作业退出。有没有办法可以将它写入现有目录而不是创建新目录?

此处test是数据帧

test.repartition(100).write.partitionBy("date").parquet(hdfslocation)

1 个答案:

答案 0 :(得分:1)

如果每次写入的文件名不同,您始终可以写入现有目录。您应该找到一种机制来更改输出文件的名称。

如果您想在现有目录中Overwrite现有文件,则无需更改文件名,只需使用mode选项

test.repartition(100).write.mode(SaveMode.Overwrite).partitionBy("date").parquet(hdfslocation)

您可以使用其他模式选项:Append, ErrorIfExists, Ignore, valueOf, values