Kafka Streams - 是否可以减少多个聚合创建的内部主题的数量

时间:2017-05-22 13:56:04

标签: apache-kafka apache-kafka-streams

我有一个Kafka Streams应用程序,它按几个值对传入的消息进行分组。例如:

示例消息:

{ "gender": "female", "location": "canada", "age-group": "25-30" }

拓扑结构:

table
    .groupBy((key, value) -> groupByGender) // example key: female
    .count("gender-counts");

table
    .groupBy((key, value) -> groupByLocation) // example key: canada
    .count("location-counts");

table
    .groupBy((key, value) -> groupByAgeGroup) // example key: 25-30
    .count("age-group-counts");

这导致了很多主题:

my-consumer-gender-counts-changelog
my-consumer-gender-counts-repartition
my-consumer-location-counts-changelog
my-consumer-location-counts-repartition
my-consumer-age-group-counts-changelog
my-consumer-age-group-counts-repartition

如果我们可以将多个聚合发送到单个状态存储,并将值按组包含在键中,那将是很好的。例如:

table
    .groupBy((key, value) -> groupByGender) // example key: female_gender
    .count("counts");

table
    .groupBy((key, value) -> groupByLocation) // example key: canada_location
    .count("counts");

table
    .groupBy((key, value) -> groupByAgeGroup) // example key: 25-30_age_group
    .count("counts");

这会导致更少的主题:

counts-changelog
counts-repartition

目前似乎不可能(使用DSL),因为使用groupBy运算符会创建内部主题以进行重新分区,因此如果我们有多个groupBy不同的子拓扑事情,然后Kafka Streams将尝试从多个来源注册相同的重新分区主题。这会导致以下错误:

org.apache.kafka.streams.errors.TopologyBuilderException: Invalid topology building: Topic counts-repartition has already been registered by another source.
        at org.apache.kafka.streams.processor.TopologyBuilder.validateTopicNotAlreadyRegistered(TopologyBuilder.java:518)

如果groupBy可以返回多条记录(例如像flatMap那样),那么我们可以返回一组记录(每个分组一条记录),但这似乎也没有可以使用DSL。

我的问题是,鉴于可以按多个值(例如{ "gender": "female", "location": "canada", "age-group": "25-30" })分组的单个记录,是否应该关注多个主题(每个分组2个)的创建(例如我们拥有的100个)不同的分组)?当单个记录可以按多个值分组时,还有其他策略可能更适合吗?我提出的建议(将多个聚合下沉到单个更改日志主题)是一个坏主意(即使唯一键的数量非常低)?

1 个答案:

答案 0 :(得分:3)

如果要按不同属性进行分组,则无法避免多个重新分区主题。假设您有两个分组属性g1g2以及三个具有以下值的记录:

r1 = g1:A, g2:1
r2 = g1:A, g2:2
r3 = g1:B, g2:2

因此,要根据g1正确汇总记录,必须将记录r1r2组合在一起。假设您的重新分区主题有2个分区p1p2,该记录将重新分配,如

p1: r1, r2
p2: r3,

另一方面,如果您在r2上汇总,则必须将记录r2r3组合在一起:

p1: r1
p2: r2,r3

注意,对于这两种情况,r2必须转到不同的分区,因此,不可能使用单个主题,但每个分组需要一个主题。 (这不是Kafka特定的 - 任何其他框架都需要多次复制和重新分配日期。)

理论上,如果添加更多语义信息(如超密钥,子密钥或1对1密钥映射),则可以减少主题数量。但Kafka Streams(和AFAIK,没有其他可比系统)不支持。