Alpakka / Kafka-分区消耗的资源比其他分区快

时间:2018-09-06 17:43:27

标签: apache-kafka akka akka-stream alpakka

我一直在使用alpakka kafka来传输来自kafka主题的数据。我正在使用:

Consumer
      .committableSource(consumerSettings, Subscriptions.topics(topic))

最近,我尝试针对15个分区的主题向3个以上的消费者发送垃圾邮件。当我用相同的组ID插入更多使用者时,它会为每个使用者拆分5个分区,但似乎并不能同时使用所有分区,这似乎是一个接一个地读取,或者读取特定分区的速度比其他分区快得多

|Partition|LogSize  |Consumer Offset|Lag      |
|0        |8,429,145|      6,087,144|2,342,001|
|1        |8,424,948|      6,223,257|2,201,691|
|2        |8,428,121|      7,764,854|  663,267|
|3        |8,421,528|      6,071,425|2,350,103|
|4        |8,434,659|      7,351,552|1,083,107|
|5        |8,428,323|      5,935,336|2,492,987|
|6        |8,424,974|      6,455,301|1,969,673|
|7        |8,431,820|      7,763,984|  667,836|
|8        |8,425,999|      6,370,962|2,055,037|
|9        |8,416,354|      6,681,093|1,735,261|
|10       |8,416,217|      6,814,949|1,601,268|
|11       |8,428,026|      5,878,703|2,549,323|
|12       |8,424,604|      8,424,589|       15|
|13       |8,431,019|      8,431,019|        0|
|14       |8,423,218|      8,423,218|        0|

这是我正在运行的生产应用程序的真实示例。所以我有一些问题:

可以读取比其他分区快得多的分区吗?

请注意,只有当我启动多个消费者时,才会发生此行为。

我应该改变消费方式吗?我应该为每个分区使用源代码,还是有其他选择?

更新

我怀疑插入一个以上的使用者(读取一个以上的应用程序)时可能会发生这种情况,但是今天仅使用一个使用者就可以发生,通过查看使用者组可以看到相同的情况。

enter image description here

当时,我还有20毫米的邮件仍在等待处理(滞后)。上图是我们公司的Kafka经理拍摄的照片。

1 个答案:

答案 0 :(得分:0)

我们通过删除其中一个将消息从一个主题复制到另一个主题的组件来解决此问题。

基本上,生产者正在写一个主题,并且此组件将这些消息复制到另一个主题,并且启用了压缩,并保留给定id的最后状态。事实证明,此组件无法正常工作,并且与该压缩主题相关的消费者遇到了一些问题。

最后,谁需要压缩主题,则让生产者直接写它。