使用Spark Streaming从更新的HDFS位置读取传入文件

时间:2019-09-05 21:33:20

标签: spark-streaming

我们正在尝试使用Spark Streaming从HDFS位置读取文件。文件每小时添加一次,路径如下:

logs / 2019-09-04 / 22 日志/ 2019-09-04 / 23 日志/ 2019-09-05 / 00 日志/ 2019-09-05 / 01 日志/ 2019-09-05 / 02 日志/ 2019-09-05 / 03 日志/ 2019-09-05 / 04 ...

例如,logs / 2019-09-04 / 22是在2019-09-04的晚上10点添加的文件的路径。

如何设置流作业,以便该作业可以从这些路径“流”日志?

0 个答案:

没有答案