应用错误收集

pyspark存储rdd在现有文件夹中而不会覆盖

时间：2015-09-17 11:21:31

标签： save pyspark

我试图在PySpark 1.3.1中使用saveAsTextFile（）函数;但是，如果我没有删除现有目录，则会出现输出目录已存在的异常。我想知道有没有办法将Spark RDD以增量方式存储到现有文件夹而不会覆盖？

2 个答案:

答案 0 :(得分：0)

不，你不能这样做：这是为了避免意外覆盖文件。

您可能要做的是指定现有目录的子文件夹，然后在需要时可以检索所有子文件夹中的所有数据。

否则，您唯一的选择是将生成的文件放在临时文件夹中，然后将它们移动到您需要的任何位置。这可以通过手工实现，也可以使用oozie。

答案 1 :(得分：0)

或者您可以将输出目录读取到RDD并联合两个RDD并使用覆盖写入该目录。