我们正在尝试使用Spark Streaming从HDFS位置读取文件。文件每小时添加一次,路径如下:
logs / 2019-09-04 / 22 日志/ 2019-09-04 / 23 日志/ 2019-09-05 / 00 日志/ 2019-09-05 / 01 日志/ 2019-09-05 / 02 日志/ 2019-09-05 / 03 日志/ 2019-09-05 / 04 ...
例如,logs / 2019-09-04 / 22是在2019-09-04的晚上10点添加的文件的路径。
如何设置流作业,以便该作业可以从这些路径“流”日志?