我正在尝试使用Spark每小时对流数据执行一次处理,但是我希望它从xx:00:00(xx是一个小时ID)开始。可能吗,或者这违反Spark意识形态?
答案 0 :(得分:1)
如果您创建的流间隔为60分钟的DStream,则该微型批处理将每小时触发一次。
val ssc = new StreamingContext(conf, Minutes(60))
如果您在示例12:29:55
上启动应用程序,则该应用程序将等到13:00:00
直到第一个微批处理开始。
下一批将是14:00:00
,依此类推。