Spark结构化流聚合输出间隔

时间:2019-02-18 20:40:36

标签: spark-structured-streaming

我正在查看Apache Spark结构化流传输中的StructuredNetworkWordCountWindowed示例,并且无法找到有关如何更新示例以控制输出间隔的信息。当我运行示例时,每次处理微型批处理时,我都会收到输出。我了解这是要这样做的,因为主要情况是实时处理数据并发出结果,但是如果我想实时处理数据却以特定间隔输出状态,该怎么办? Spark结构化流是否支持这种情况?我阅读了编程指南,提到的唯一类似概念是Trigger.ProcessingTime选项。不幸的是,此选项并不是必需的,因为它适用于批处理时间,并且上述情况仍然需要实时处理数据。

是否支持此功能?更具体地说,如果没有晚到并且使用滚动窗口,我如何仅在窗口结束时输出状态?

0 个答案:

没有答案