Spark 2.2结构化流 - 没有水印的重复检查 - 控制重复的状态大小

时间:2017-08-08 11:14:21

标签: apache-spark duplicates spark-structured-streaming

我们正在使用Spark 2.2结构化流媒体实现实时聚合流程。 计算出的窗口可以基于作为流中正在处理的对象的属性的事件时间,也可以根据系统的处理时间计算,就像之前版本中可能的那样。

此外,我们需要实施重复检查以防止处理重复事件。

在文件中说明

  

没有水印 - 由于重复记录可能到达时没有界限,查询会将所有过去记录中的数据存储为状态。 (https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#streaming-deduplication

问题是看起来这种状态会永远增长并导致性能和内存大小问题。 API似乎没有办法控制它

问题是有没有办法对没有事件时间概念的事件实施重复检查,并仍然保持对重复检查状态的控制,如清除等。

谢谢!

0 个答案:

没有答案