在下面的代码中,我无法将数据帧写入现有目录,它只是从spark提交作业退出。有没有办法可以将它写入现有目录而不是创建新目录?
此处test是数据帧
test.repartition(100).write.partitionBy("date").parquet(hdfslocation)
答案 0 :(得分:1)
如果每次写入的文件名不同,您始终可以写入现有目录。您应该找到一种机制来更改输出文件的名称。
如果您想在现有目录中Overwrite
现有文件,则无需更改文件名,只需使用mode
选项
test.repartition(100).write.mode(SaveMode.Overwrite).partitionBy("date").parquet(hdfslocation)
您可以使用其他模式选项:Append, ErrorIfExists, Ignore, valueOf, values