桌上的火花流滑动窗口

时间:2020-06-10 10:46:43

标签: apache-spark spark-structured-streaming

比方说,我有按日期和小时标记的数据。我想汇总2年的数据。然后,我想进行相同的聚合,但间隔增加1小时。所以我有一个1年的滑动窗口,一次移动1小时。这意味着每次我处理数据时,所有数据都是相同的,除了最短的一小时数据被遗漏并且最近一小时有新数据。但这是对历史数据的分析,因此我现在已经拥有所有数据。

我的问题是在这种情况下可以使用流式API吗?我想要这样做的原因是我希望对滑动窗口进行一些性能优化。从理论上讲,没有必要从滑动窗口的中间重新处理所有数据,聚合只能通过查看滑动窗口末端的更改来更新。 那有可能吗?我以前没有使用过流API,所以我确定这是否正确。

0 个答案:

没有答案