应用错误收集

在Spark Streaming中处理太晚的数据

时间：2019-07-03 03:49:17

标签： scala apache-spark spark-structured-streaming

水印允许使用窗口在一段时间内将迟到的数据考虑为已包含在已计算的结果中。它的前提是它跟踪到某个时间点，在此时间点之前，假定不再有任何较晚的事件应该到达，但是如果确实如此，则它们仍然是discarded。

是否有一种存储丢弃的数据的方法，以后可以用于对帐？在结构化流媒体中，我将水印设置为1小时。我每10分钟执行一次窗口操作，并且晚20分钟收到一次以后的事件。我有办法将丢弃的数据存储在另一个位置而不是将其丢弃吗？

1 个答案:

答案 0 :(得分：0)

否，没有办法实现这一方面。