递归监视HDFS目录火花流

时间:2016-06-11 12:12:06

标签: apache-spark spark-streaming

我需要使用spark streaming从HDFS目录中传输数据。

JavaDStream<String> lines = ssc.textFileStream("hdfs://ip:8020/directory");

上面在监视新文件的HDFS目录方面做得非常好,但是它仅限于同一目录级别,它不监视嵌套目录。

我发现以下帖子中提到了向此API添加深度参数

https://mail-archives.apache.org/mod_mbox/spark-reviews/201502.mbox/%3C20150220121124.DBB5FE03F7@git1-us-west.apache.org%3E

https://github.com/apache/spark/pull/2765

问题是在火花版本1.6.1(已测试)中此参数不存在,因此我无法使用它,我不想更改原始源8日

JavaDStream<String> lines = ssc.textFileStream("hdfs://ip:8020/*/*/*/");

堆栈溢出中的一些帖子提到使用上面的语法,它不起作用。

我错过了什么吗?

1 个答案:

答案 0 :(得分:1)

看起来补丁已创建但由于S3和目录深度的困难而从未获得批准。

https://github.com/apache/spark/pull/6588