我正在执行Spark Streaming应用程序,我想将一些结果转储到不是RDD形式的HDFS,它们是简单的字符串。那么如何将这些数据转储到HDFS,如果有一种方法可以将这些数据附加到文件中会有很大帮助。
答案 0 :(得分:1)
你总是可以从字符串数组创建rdd:
val newRDD = sc.parallelize(/* here your list or array */)
要将输出写入文件,可以使用saveAsTextFiles()方法。 foreachRDD + saveAsParquet(path, overwrite = true)
- 使用此功能,您可以将每个rdd写入单个文件。