在结构化流媒体中,我将水印设置为1小时。
我每10分钟要做一次窗口操作。
我晚20分钟收到了以后的活动。
会不会计算相应的窗口?
答案 0 :(得分:0)
水印允许使用窗口在时间段内将迟到的数据考虑为已包含在已计算结果中。它的前提是它跟踪到某个时间点,在该时间点之前,假定不再有任何较晚的事件应该到达,但是如果确实如此,则将其丢弃。有多种操作模式。
https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#window-operations-on-event-time上的优秀示例,带有漂亮的图表来补充。
您的问题:是的,您引用的示例将包含最新数据,因为在这种情况下,您是在1小时的窗口中描述它的。