通过分区键从时间窗口中删除kafka流中的重复消息

时间:2018-05-29 20:23:59

标签: apache-kafka apache-kafka-streams

我有两个Kafka流 - Stream1和Stream2。执行左连接后,我将结果集作为StreamResult。这里的问题是,Stream1和Stream2之间的左连接在我的StreamResult中给出了重复的结果。例如,

  

Key1,Stream1_Col1,null
Key1,Stream1_Col1,Stream2_col2
Key2,Stream1_Col1,Stream2_col2

我正在尝试在key1上删除带有空值的副本,并在key1上保留最新消息。 Key1上带有null和不带null的重复项可以在60秒的窗口期内发生。预期结果将是

  

Key1,Stream1_Col1,Stream2_col2
Key2,Stream1_Col1,Stream2_col2

是否有任何逻辑/ Kstream方法可以帮助我实现这一目标?

0 个答案:

没有答案