如何使用结构化流基于pyspark中的连续事件对数据进行计数和分组

时间:2019-05-05 05:49:43

标签: python pyspark-sql spark-structured-streaming

我正在从卡夫卡接收连续的温度数据流。我正在根据以下温度范围对数据进行分类。

Timestamp         alertType
5/1/2019 10:01:10   MEDIUM
5/1/2019 10:01:11   MEDIUM
5/1/2019 10:01:12   MEDIUM
5/1/2019 10:01:13   MEDIUM
5/1/2019 10:01:14   MEDIUM
5/1/2019 10:01:15   NORMAL
5/1/2019 10:01:16   HIGH
5/1/2019 10:01:17   HIGH
5/1/2019 10:01:18   HIGH
5/1/2019 10:01:19   MEDIUM

如何使用带有一定滑动间隔(1秒)的窗口函数,使用pyspark获得输出。如果连续计数的数量超过阈值,那么我想触发警报。

Timestamp         alertType Count
5/1/2019 10:01:14   MEDIUM  5
5/1/2019 10:01:15   NORMAL  1
5/1/2019 10:01:18   HIGH    3
5/1/2019 10:01:19   MEDIUM  1

是否有另一种方法可以通过结构化流媒体实现“滞后”功能?

0 个答案:

没有答案