每小时00:00进行Spark流运行处理

时间:2018-08-09 11:34:39

标签: apache-spark

我正在尝试使用Spark每小时对流数据执行一次处理,但是我希望它从xx:00:00(xx是一个小时ID)开始。可能吗,或者这违反Spark意识形态?

1 个答案:

答案 0 :(得分:1)

如果您创建的流间隔为60分钟的DStream,则该微型批处理将每小时触发一次。

val ssc = new StreamingContext(conf, Minutes(60))

如果您在示例12:29:55上启动应用程序,则该应用程序将等到13:00:00直到第一个微批处理开始。

下一批将是14:00:00,依此类推。