我可以看到,火花流窗口功能仅在收到数据时才进行分组"。我想基于数据本身中可用的时间戳字段进行分组。可能吗?
例如 - 数据创建时间戳作为数据的一部分提供为下午1点。但火花流在下午1点05分收到了数据。因此,它应该根据数据中可用的时间戳(1 PM)进行分组。
答案 0 :(得分:0)
我想根据数据本身可用的时间戳字段进行分组。有可能吗?
没有。 Spark Streaming不提供这样的功能。
您应该使用提供window
功能的Structured Streaming进行分组。
引用Window Operations on Event Time:
使用Structured Streaming,滑动事件时间窗口上的聚合非常简单,并且与分组聚合非常相似。在分组聚合中,为用户指定的分组列中的每个唯一值维护聚合值(例如计数)。在基于窗口的聚合的情况下,为每个窗口维护一行的事件时间的聚合值。