Question

在下面的代码中，我无法将数据帧写入现有目录，它只是从spark提交作业退出。有没有办法可以将它写入现有目录而不是创建新目录？

此处test是数据帧

test.repartition(100).write.partitionBy("date").parquet(hdfslocation)

Answer 1

如果每次写入的文件名不同，您始终可以写入现有目录。您应该找到一种机制来更改输出文件的名称。

如果您想在现有目录中Overwrite现有文件，则无需更改文件名，只需使用mode选项

test.repartition(100).write.mode(SaveMode.Overwrite).partitionBy("date").parquet(hdfslocation)

您可以使用其他模式选项：Append, ErrorIfExists, Ignore, valueOf, values