我有一个pyspark流代码,可以从kafka服务器读取心跳数据。我可以使用以下行确认收到数据。
heartBeats = mac_id.groupBy('macId').count()
我想使用窗口功能来跟踪过去几分钟未发送听音的设备。
windowedCountsDF = \
mac_id \
.withWatermark("time", "10 seconds") \
.groupBy(
mac_id.macId,
window(mac_id.time, "10 seconds", "5 seconds")) \
.count()
但是,即使数据到达,流执行开始时,它也不会显示任何结果。
query = windowedCountsDF.writeStream.outputMode('complete').format('console').option('truncate',False).start()
这里有什么问题吗?谢谢 !