目前,我通过火花结构流式传输
读取Kafka主题后有下表key,timestamp,value
-----------------------------------
key1,2017-11-14 07:50:00+0000,10
key1,2017-11-14 07:50:10+0000,10
key1,2017-11-14 07:51:00+0000,10
key1,2017-11-14 07:51:10+0000,10
key1,2017-11-14 07:52:00+0000,10
key1,2017-11-14 07:52:10+0000,10
key2,2017-11-14 07:50:00+0000,10
key2,2017-11-14 07:51:00+0000,10
key2,2017-11-14 07:52:10+0000,10
key2,2017-11-14 07:53:00+0000,10
我想为每个密钥使用不同的窗口并执行聚合
例如,key1将在1分钟的窗口上聚合以产生
key,window,sum
------------------------------------------
key1,[2017-11-14 07:50:00+0000,2017-11-14 07:51:00+0000],20
key1,[2017-11-14 07:51:00+0000,2017-11-14 07:52:00+0000],20
key1,[2017-11-14 07:52:00+0000,2017-11-14 07:53:00+0000],20
key2将在2分钟的窗口上聚合以产生
key,window,sum
------------------------------------------
key2,[2017-11-14 07:50:00+0000,2017-11-14 07:52:00+0000],20
key2,[2017-11-14 07:52:00+0000,2017-11-14 07:54:00+0000],20
目前我执行以下操作
var l1 = List(List(key1,"60 seconds"),List(key2,"120 seconds"))
l1.foreach{list =>
val filtered_df = df.filter($"key" === list(0))
val windowedPlantSum = filtered_df
.withWatermark("timestamp", "120 minutes")
.groupBy(
window($"timestamp", list(1)),
$"key"
)
.agg(sum("value").alias("sum")
//start the stream
}
上述方法启动了2个独立的流。在我的情况下,有200个这样的密钥启动200个流,由于内存问题而失败。
有没有办法根据Spark结构化流媒体中的键指定窗口,还是有其他方法?
答案 0 :(得分:1)