在hdfs上引入Spark Streaming

时间:2017-08-23 14:01:20

标签: scala apache-spark

我正在尝试使用结构化流媒体使用以下代码在hdfs中提取数据:

val query = output
            .writeStream
            .format("csv")
            .option("path", "hdfs://hdfs_path")
            .option("checkpointLocation", "checkpoint")
            .start()

但是由于以下错误,这不起作用:

  

引起:java.lang.IllegalArgumentException:java.net.UnknownHostException:user

有谁知道如何解决此问题。

1 个答案:

答案 0 :(得分:1)

该错误表明您未使用hostname并在hdfs://之后移植,但您提供的路径为hdfs://user/...

告诉 spark hostnameuser,这是不正确的。

所以找到hostname的{​​{1}}并在路径中使用

所以而不是

namenode

你应该使用

.option("path", "hdfs://hdfs_path")