来自不同Kafka主题的事件数量的汇总(汇总)

时间:2020-01-26 23:22:31

标签: apache-kafka apache-kafka-streams spring-cloud-stream spring-cloud-stream-binder-kafka

我的应用程序包含三个主题,这些主题接收一些属于用户的事件:

Event Type A -> Topic A
Event Type B -> Topic B
Event Type C -> Topic C

这将是消息流的一个示例:

Message(user 1 - event A - 2020-01-03) 
Message(user 2 - event A - 2020-01-03) 
Message(user 1 - event C - 2020-01-20)
Message(user 1 - event B - 2020-01-22)

我希望能够生成包含每个用户每月事件总数的报告,汇总三个主题中的所有事件,例如:

User 1 - 2020-01 -> 3 total events
User 2 - 2020-01 -> 1 total events

具有三个KStream(每个主题一个),我每个月如何执行此加法运算以求和来自三个不同主题的所有事件的总和?您可以显示代码吗?

1 个答案:

答案 0 :(得分:0)

因为您只对计数感兴趣,所以最简单的方法是将用户ID保留为键,并为每个KStream保留一些虚拟值,合并所有三个流,然后再进行窗口计数(请注意,不支持现成的基于日历的窗口;您可以使用31天的窗口作为近似值,也可以构建自己的自定义窗口):

// just map to dummy empty string (note, that `null` would not work
KStream<UserId, String> streamA = builder.stream("topic-A").mapValues(v -> "");
KStream<UserId, String> streamB = builder.stream("topic-B").mapValues(v -> "");
KStream<UserId, String> streamC = builder.stream("topic-C").mapValues(v -> "");

streamA.merge(streamB).merge(streamC).groupByKey().windowBy(...).count();

您可能还对suppress()运算符感兴趣。

相关问题