我正在尝试做这样的事情
df = //readstream
df.window($"ts_col", "5 minutes")
.writeStream
.format("console")
.trigger(Trigger.ProcessingTime("60 seconds"))
.foreachBatch({ (batchDF: DataFrame, batchId: Long) => {
batchDF.rdd.map(
t => println(t) )
}})
.start()
我了解我将需要在groupBy函数中使用window函数。有没有一种方法可以不使用聚合函数来对数据进行窗口处理?我要做的就是每60秒获取最近5分钟的记录并按原样打印。
谢谢。