应用错误收集

我正在从卡夫卡接收连续的温度数据流。我正在根据以下温度范围对数据进行分类。

Timestamp         alertType
5/1/2019 10:01:10   MEDIUM
5/1/2019 10:01:11   MEDIUM
5/1/2019 10:01:12   MEDIUM
5/1/2019 10:01:13   MEDIUM
5/1/2019 10:01:14   MEDIUM
5/1/2019 10:01:15   NORMAL
5/1/2019 10:01:16   HIGH
5/1/2019 10:01:17   HIGH
5/1/2019 10:01:18   HIGH
5/1/2019 10:01:19   MEDIUM

如何使用带有一定滑动间隔（1秒）的窗口函数，使用pyspark获得输出。如果连续计数的数量超过阈值，那么我想触发警报。

Timestamp         alertType Count
5/1/2019 10:01:14   MEDIUM  5
5/1/2019 10:01:15   NORMAL  1
5/1/2019 10:01:18   HIGH    3
5/1/2019 10:01:19   MEDIUM  1

是否有另一种方法可以通过结构化流媒体实现“滞后”功能？

如何使用结构化流基于pyspark中的连续事件对数据进行计数和分组

0 个答案: