Spark:将RDD保存在HDFS中已存在的路径中

时间:2016-07-29 16:29:49

标签: hadoop apache-spark hdfs rdd

我可以使用 saveAsTextFile 方法将RDD输出保存到HDFS。如果文件路径已存在,则此方法将引发异常。

我有一个用例,我需要将RDDS保存在HDFS中已有的文件路径中。有没有办法将新的RDD数据附加到已存在于同一路径中的数据中?

1 个答案:

答案 0 :(得分:6)

从Spark 1.6开始提供的一种可能的解决方案是使用DataFrames格式和text模式的append

val outputPath: String = ???

rdd.map(_.toString).toDF.write.mode("append").text(outputPath)