Kafka Connect Distributed tasks.max配置设置的理想价值?

时间:2017-01-27 18:30:12

标签: amazon-s3 apache-kafka apache-kafka-connect confluent

我期待产品电离并部署​​我的Kafka Connect应用程序。但是,我有两个关于tasks.max设置的问题,这是必需的并且具有很高的重要性,但细节对于实际设置该值的内容是模糊的。

我最简单的问题如下:如果我有一个带有n个分区的主题,我希望从中获取数据并写入某个接收器(在我的情况下,我写入S3),我该怎么设置tasks.max至?我应该把它设置为n吗?我应该把它设置为2n吗?直观地说,我似乎想要将值设置为n,这就是我一直在做的事情。

如果我更改我的Kafka主题并增加主题分区怎么办?如果我把它设置为n,我将不得不暂停我的Kafka连接器并增加tasks.max?如果我设置了2n的值,那么我的连接器应该自动增加它运行的并行度吗?

感谢您的帮助!

2 个答案:

答案 0 :(得分:15)

在Kafka Connect接收器中,任务本质上是消费者线程并接收要读取的分区。如果您有10个分区且tasks.max设置为5,则每个任务都会接收2个分区以读取和跟踪偏移量。如果您已将tasks.max配置为高于分区计数的数字,则Connect将启动一系列与其正在阅读的主题的分区相等的任务。

如果更改主题的分区计数,则必须重新启动连接任务,如果tasks.max仍然大于分区计数,则Connect将启动这么多任务。

编辑,刚发现ConnectorContexthttps://kafka.apache.org/0100/javadoc/org/apache/kafka/connect/connector/ConnectorContext.html

必须编写连接器以包含此连接,但如果主题发生更改(添加/删除分区),Connect似乎可以重新配置连接器。

答案 1 :(得分:1)

由于tasks.max数量多于分区数量,导致Kafka-Connect(5.1.2)实例之间的工作负载分配存在问题。

在我们的例子中,有10个Kafka Connect任务和3个主题分区需要使用。这10个工作人员中有3个被分配给该主题的3个分区,其他7个没有分配给任何分区(这是预期的),但是Kafka Connect在不考虑其工作量的情况下平均分配任务。因此,我们最终将任务分配给我们的实例,其中某些实例保持空闲状态(因为它们没有分配给任何非空worker),或者某些实例比其他实例工作更多。

要解决这个问题,我们将tasks.max设置为等于主题划分的数量。

对于我们来说,看到Kafka Connect在重新平衡时没有考虑任务的分配确实让我们感到意外。另外,我找不到tasks.max设置的任何文档。