我正在按以下方式编写我的spark输出
pairedRDD.partitionBy(new HashPartitioner(noOfHashPartitioner)).saveAsHadoopFile(output, classOf[String], classOf[String], classOf[RddMultiTextOutputFormat], classOf[GzipCodec])
但是在这种情况下,每次我需要删除输出文件夹然后运行我的spark作业时,我都想在S3上一次又一次地将输出写入相同的输出文件夹中。
这样做的原因是我的Spark代码的输出是数百万个小的xml文件,并且要运行我的Spark代码,我需要将输出复制到另一个S3文件夹中,这是由于其庞大且对象数量少而需要花费大量时间的。
因此,我们希望在Spark中加入一些东西,以便它可以写在同一文件夹中或将输出追加附加到同一文件夹中。
答案 0 :(得分:0)
尝试一下。
conf.set("spark.hadoop.validateOutputSpecs", "false")