我可以使用 saveAsTextFile 方法将RDD输出保存到HDFS。如果文件路径已存在,则此方法将引发异常。
我有一个用例,我需要将RDDS保存在HDFS中已有的文件路径中。有没有办法将新的RDD数据附加到已存在于同一路径中的数据中?
答案 0 :(得分:6)
从Spark 1.6开始提供的一种可能的解决方案是使用DataFrames
格式和text
模式的append
:
val outputPath: String = ???
rdd.map(_.toString).toDF.write.mode("append").text(outputPath)