如何按时间戳分组数据或数据摄取时间?

时间:2017-08-17 01:06:56

标签: apache-spark pyspark spark-streaming

我可以看到,火花流窗口功能仅在收到数据时才进行分组"。我想基于数据本身中可用的时间戳字段进行分组。可能吗?

例如 - 数据创建时间戳作为数据的一部分提供为下午1点。但火花流在下午1点05分收到了数据。因此,它应该根据数据中可用的时间戳(1 PM)进行分组。

1 个答案:

答案 0 :(得分:0)

  

我想根据数据本身可用的时间戳字段进行分组。有可能吗?

没有。 Spark Streaming不提供这样的功能。

您应该使用提供window功能的Structured Streaming进行分组。

引用Window Operations on Event Time

  

使用Structured Streaming,滑动事件时间窗口上的聚合非常简单,并且与分组聚合非常相似。在分组聚合中,为用户指定的分组列中的每个唯一值维护聚合值(例如计数)。在基于窗口的聚合的情况下,为每个窗口维护一行的事件时间的聚合值。