在Spark Structured Streaming中组合窗口(groupBy)和mapGroupsWithState(groupByKey)

时间:2017-08-04 10:59:48

标签: apache-spark spark-structured-streaming

目前使用Spark 2.2.0结构化流媒体。

给定带有水印的时间戳数据流,是否有办法将(1)groupBy操作与时间戳字段和其他分组标准(2)groupByKey操作相结合来实现窗口化为了将mapGroupsWithState应用于组以进行自定义会话?

或者我必须以某种方式将窗口和其他分组逻辑嵌入到groupByKey

上下文:

  • 在数据集上调用支持窗口化的groupBy会返回RelationalGroupedDataset,而mapGroupsWithState没有groupByKey

  • 调用支持mapGroupsWithState的{​​{1}},会返回KeyValueGroupedDataset,但不支持窗口化!

修改

现在SPARK-21641跟踪了这个问题 - 在Spark Structured Streaming 中组合窗口(groupBy)和mapGroupsWithState(groupByKey)。

0 个答案:

没有答案