将DStream保存在HDFS自定义位置

时间:2016-03-29 13:02:34

标签: apache-spark hdfs spark-streaming

Spark DStream有方法saveAsTextFiles(前缀,[suffix]),可用于在HDFS上保存数据,但此函数不接受任何路径参数。

myDStream.saveAsTextFiles("prefix_","_suffix")

默认情况下,它将数据保存到HDFS上当前登录的用户目录中,即如果您使用root用户运行应用程序,则数据存储在

/user/root/prefix_TIMESTAMP_suffx

如何更改输出目录?

由于

1 个答案:

答案 0 :(得分:0)

为它指定所需HDFS目录的路径作为前缀参数:

myDStream.saveAsTextFiles("hdfs://my/custom/path/prefix_","_suffix")