如何从Spark Streaming脚本写入HDFS

时间:2017-07-19 08:06:51

标签: apache-spark spark-streaming

我正在执行Spark Streaming应用程序,我想将一些结果转储到不是RDD形式的HDFS,它们是简单的字符串。那么如何将这些数据转储到HDFS,如果有一种方法可以将这些数据附加到文件中会有很大帮助。

1 个答案:

答案 0 :(得分:1)

你总是可以从字符串数组创建rdd: val newRDD = sc.parallelize(/* here your list or array */)

要将输出写入文件,可以使用saveAsTextFiles()方法。 foreachRDD + saveAsParquet(path, overwrite = true) - 使用此功能,您可以将每个rdd写入单个文件。