Question

我可以使用 saveAsTextFile 方法将RDD输出保存到HDFS。如果文件路径已存在，则此方法将引发异常。

我有一个用例，我需要将RDDS保存在HDFS中已有的文件路径中。有没有办法将新的RDD数据附加到已存在于同一路径中的数据中？

Answer 1

从Spark 1.6开始提供的一种可能的解决方案是使用DataFrames格式和text模式的append：

val outputPath: String = ???

rdd.map(_.toString).toDF.write.mode("append").text(outputPath)