标签: pyspark pyspark-sql window-functions spark-structured-streaming
我有一个设置,其中IoT设备通过kafka主题每1分钟发送一次心跳数据包。我正在通过pyspark消费数据包。我尝试了开窗口,但是我发现窗口查询直到收到消息后才执行。有什么方法可以强制查询以固定间隔执行,例如每3分钟执行一次。因此,如果设备的数据包计数在3分钟后为1,则会丢失2个心跳。有什么办法可以使用pyspark做到这一点?
我有这个代码。我是否可以设置任何选项,以便每隔“ x”分钟触发一次,而不管是否接收到数据?
{{log 'my error' model}}
谢谢