Spark:将RDD对保存为同一输出文件夹中的追加模式

时间:2018-10-25 07:34:18

标签: scala apache-spark apache-spark-sql

我正在按以下方式编写我的spark输出

pairedRDD.partitionBy(new HashPartitioner(noOfHashPartitioner)).saveAsHadoopFile(output, classOf[String], classOf[String], classOf[RddMultiTextOutputFormat], classOf[GzipCodec])

但是在这种情况下,每次我需要删除输出文件夹然后运行我的spark作业时,我都想在S3上一次又一次地将输出写入相同的输出文件夹中。

这样做的原因是我的Spark代码的输出是数百万个小的xml文件,并且要运行我的Spark代码,我需要将输出复制到另一个S3文件夹中,这是由于其庞大且对象数量少而需要花费大量时间的。

因此,我们希望在Spark中加入一些东西,以便它可以写在同一文件夹中或将输出追加附加到同一文件夹中。

1 个答案:

答案 0 :(得分:0)

尝试一下。

conf.set("spark.hadoop.validateOutputSpecs", "false")