我正在从卡夫卡接收连续的温度数据流。我正在根据以下温度范围对数据进行分类。
Timestamp alertType
5/1/2019 10:01:10 MEDIUM
5/1/2019 10:01:11 MEDIUM
5/1/2019 10:01:12 MEDIUM
5/1/2019 10:01:13 MEDIUM
5/1/2019 10:01:14 MEDIUM
5/1/2019 10:01:15 NORMAL
5/1/2019 10:01:16 HIGH
5/1/2019 10:01:17 HIGH
5/1/2019 10:01:18 HIGH
5/1/2019 10:01:19 MEDIUM
如何使用带有一定滑动间隔(1秒)的窗口函数,使用pyspark获得输出。如果连续计数的数量超过阈值,那么我想触发警报。
Timestamp alertType Count
5/1/2019 10:01:14 MEDIUM 5
5/1/2019 10:01:15 NORMAL 1
5/1/2019 10:01:18 HIGH 3
5/1/2019 10:01:19 MEDIUM 1
是否有另一种方法可以通过结构化流媒体实现“滞后”功能?