Spark with Webhdfs / httpfs

时间:2014-12-08 22:11:52

标签: apache-spark webhdfs

我想通过httpfs或Webhdfs从HDFS读取文件到Spark。

的内容
  

sc.textFile( “webhdfs://为myhost:14000 / webhdfs / V1 /路径/到/ file.txt的”)

或理想情况下

  

sc.textFile( “httpfs://为myhost:14000 / webhdfs / V1 /路径/到/ file.txt的”)

有没有办法让Spark通过Webhdfs / httpfs读取文件?

2 个答案:

答案 0 :(得分:0)

我相信WebHDFS / HttpFS就像流源一样,通过REST-API传输数据。

然后Spark Streaming可用于从WebHDFS / HttpFS接收数据。

答案 1 :(得分:-1)

根据SPARK-2930文档增强请求,spark.yarn.access.namenodes也适用于webhdfs / hdfs。 SPARK-2930 clarify docs on using webhdfs with spark.yarn.access.namenodes

Running Spark on YARN 获取有关spark.yarn.access.namenodes

的更多详细信息