使用Spark结构化流水印处理后期事件?

时间:2018-09-22 14:15:33

标签: spark-streaming

在结构化流媒体中,我将水印设置为1小时。

我每10分钟要做一次窗口操作。

我晚20分钟收到了以后的活动。

会不会计算相应的窗口?

1 个答案:

答案 0 :(得分:0)

水印允许使用窗口在时间段内将迟到的数据考虑为​​已包含在已计算结果中。它的前提是它跟踪到某个时间点,在该时间点之前,假定不再有任何较晚的事件应该到达,但是如果确实如此,则将其丢弃。有多种操作模式。

https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#window-operations-on-event-time上的优秀示例,带有漂亮的图表来补充。

您的问题:是的,您引用的示例将包含最新数据,因为在这种情况下,您是在1小时的窗口中描述它的。