在Spark Streaming中处理太晚的数据

时间:2019-07-03 03:49:17

标签: scala apache-spark spark-structured-streaming

水印允许使用窗口在一段时间内将迟到的数据考虑为​​已包含在已计算的结果中。它的前提是它跟踪到某个时间点,在此时间点之前,假定不再有任何较晚的事件应该到达,但是如果确实如此,则它们仍然是discarded

是否有一种存储丢弃的数据的方法,以后可以用于对帐? 在结构化流媒体中,我将水印设置为1小时。 我每10分钟执行一次窗口操作,并且晚20分钟收到一次以后的事件。 我有办法将丢弃的数据存储在另一个位置而不是将其丢弃吗?

1 个答案:

答案 0 :(得分:0)

否,没有办法实现这一方面。