火花流:我可以使用没有聚合的窗口吗?

时间:2020-08-26 23:30:14

标签: apache-spark spark-streaming spark-structured-streaming

我正在尝试做这样的事情

df = //readstream

df.window($"ts_col", "5 minutes")
.writeStream
.format("console")
.trigger(Trigger.ProcessingTime("60 seconds"))
.foreachBatch({ (batchDF: DataFrame, batchId: Long) => {
  batchDF.rdd.map(
     t => println(t) )
   }})
.start()

我了解我将需要在groupBy函数中使用window函数。有没有一种方法可以不使用聚合函数来对数据进行窗口处理?我要做的就是每60秒获取最近5分钟的记录并按原样打印。

谢谢。

0 个答案:

没有答案