标签: apache stream state summary beam
我正在尝试建立一个Beam管道,以在具有多个分区的Kafka流上维护Count Min草图。我的目标是将CM草图(数组)的基础数据结构平均分配给所有可用的工作人员。我想知道是否有一种方法可以让Beam始终将相同的密钥发送给同一工人,以便我可以为该密钥子集使用本地CM草图,然后将本地草图简单地合并为一个更大的草图。我了解了Beam状态API,但不幸的是,它是按Key AND Window划分的。 您能否建议一种将密钥子集始终发送给同一工作人员的方法,还是让Beam永远保持一组数组状态的方法?