目前使用Spark 2.2.0结构化流媒体。
给定带有水印的时间戳数据流,是否有办法将(1)groupBy
操作与时间戳字段和其他分组标准(2)groupByKey
操作相结合来实现窗口化为了将mapGroupsWithState
应用于组以进行自定义会话?
或者我必须以某种方式将窗口和其他分组逻辑嵌入到groupByKey
?
上下文:
在数据集上调用支持窗口化的groupBy
会返回RelationalGroupedDataset,而mapGroupsWithState
没有groupByKey
。
调用支持mapGroupsWithState
的{{1}},会返回KeyValueGroupedDataset,但不支持窗口化!
修改:
现在SPARK-21641跟踪了这个问题 - 在Spark Structured Streaming 中组合窗口(groupBy)和mapGroupsWithState(groupByKey)。