如何手动比较火花窗口结果

时间:2020-11-12 05:38:13

标签: apache-spark spark-streaming

在火花结构流式传输(版本2.3.2)中使用window函数之后,是否仍然可以手动比较不同的行?还是我可以直接访问状态存储?

我想做的是每10分钟对Kafka的事件量进行一次窗口计数和计数,然后我想比较每个窗口完成后不同时间窗口的计数,以检查该量历史。

我试图利用foreach编写器,但似乎每次调用只会获得每一行。 我也尝试过自定义接收器来执行此操作,但是在访问内部的RDD时遇到了很多问题...

那么有没有更简单的方法可以进行这种比较?

我实际上也实现了一个与mapGroupsWithState一起使用的版本,但是它需要考虑很多window函数中应该涵盖的细节。因此,我正在尝试查看是否还有一种更优雅的方法。

0 个答案:

没有答案