pyspark存储rdd在现有文件夹中而不会覆盖

时间:2015-09-17 11:21:31

标签: save pyspark

我试图在PySpark 1.3.1中使用saveAsTextFile()函数;但是,如果我没有删除现有目录,则会出现输出目录已存在的异常。 我想知道有没有办法将Spark RDD以增量方式存储到现有文件夹而不会覆盖?

2 个答案:

答案 0 :(得分:0)

不,你不能这样做:这是为了避免意外覆盖文件。

您可能要做的是指定现有目录的子文件夹,然后在需要时可以检索所有子文件夹中的所有数据。

否则,您唯一的选择是将生成的文件放在临时文件夹中,然后将它们移动到您需要的任何位置。这可以通过手工实现,也可以使用oozie

答案 1 :(得分:0)

或者您可以将输出目录读取到RDD并联合两个RDD并使用覆盖写入该目录。