我需要使用spark streaming从HDFS目录中传输数据。
JavaDStream<String> lines = ssc.textFileStream("hdfs://ip:8020/directory");
上面在监视新文件的HDFS目录方面做得非常好,但是它仅限于同一目录级别,它不监视嵌套目录。
我发现以下帖子中提到了向此API添加深度参数
https://github.com/apache/spark/pull/2765
问题是在火花版本1.6.1(已测试)中此参数不存在,因此我无法使用它,我不想更改原始源8日
JavaDStream<String> lines = ssc.textFileStream("hdfs://ip:8020/*/*/*/");
堆栈溢出中的一些帖子提到使用上面的语法,它不起作用。
我错过了什么吗?