擦除旧的Spark结构化流式事件时间窗口

时间:2017-08-15 19:35:11

标签: scala apache-spark spark-structured-streaming

我在事件时间窗口中获取聚合数据,但我需要的数据是最新3个窗口中包含的数据。什么是正确的方法来擦除我不需要的其他处理过的旧窗口?

val query = lines
  .withWatermark("timestamp", "20 seconds")
  .groupBy(window($"timestamp", "10 seconds"),$"value").count().sort(-$"window")
  .writeStream
  .outputMode("complete")
  .format("console")
  .start()

我想只看到最近3个最新的窗口。过滤掉30秒以上的窗户是否足够好?

由于

0 个答案:

没有答案