Apache Beam是否可以在传入流上保留数据摘要(如Count Min草图)?

时间:2019-05-12 21:41:52

标签: apache stream state summary beam

我正在尝试建立一个Beam管道,以在具有多个分区的Kafka流上维护Count Min草图。我的目标是将CM草图(数组)的基础数据结构平均分配给所有可用的工作人员。我想知道是否有一种方法可以让Beam始终将相同的密钥发送给同一工人,以便我可以为该密钥子集使用本地CM草图,然后将本地草图简单地合并为一个更大的草图。我了解了Beam状态API,但不幸的是,它是按Key AND Window划分的。 您能否建议一种将密钥子集始终发送给同一工作人员的方法,还是让Beam永远保持一组数组状态的方法?

0 个答案:

没有答案