Kafka Producer将消息发布到单个分区

时间:2019-09-27 09:50:56

标签: java apache-kafka kafka-producer-api

我是Kafka的新手,正在阅读可用的官方文档。

在我的本地系统上,我已经与zookeeper一起启动了一个kafka实例。 Zookeper和kafka服务器都在默认端口上运行。

我创建了一个主题“测试”,其复制因子为1,因为我只有一个kafka实例并可以运行。

与此同时,我创建了两个分区。

我有两个使用者在同一使用者组中订阅了此队列。

目前,我已经在Windows计算机上使用命令提示符启动了消费者。

当我从命令提示符启动生产者并将消息发布到主题时,一切正常。 Kafka使用循环机制将消息推送到两个分区,并且每个使用者交替接收消息,因为他们每个人都在监听单独的分区。

但是,当我使用java kafka-client jar创建生产者时,即使我为消息使用了不同的密钥,生产者也会将所有消息推送到同一分区,因为所有消息都是在同一使用者上收到的。

分区也不是静态的,每当我运行生产者时,分区就会不断变化。

我尝试了与生产者相同的场景,该生产者是从命令提示符启动的,其配置与我使用Java代码提供给kafka-client生产者的配置完全相同。命令提示符生成器似乎运行良好,但是代码生成器将所有消息推送到同一分区。

我尝试更改某些消息的密钥,希望代理将消息发送到不同的分区,因为在文档中提到代理使用消息密钥路由消息。

public class KafkaProducerParallel {


public static void main(String[] args) throws InterruptedException, 
ExecutionException {

    Properties properties = new Properties();
    properties.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, 
"localhost:9092");
    properties.put(ProducerConfig.CLIENT_ID_CONFIG, "parallelism- 
 producer");
    properties.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, 
 StringSerializer.class);
    properties.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, 
LongSerializer.class);


    Producer<String, Long> parallelProducer = new KafkaProducer<> 
(properties);

    for(long i=0;i<100;i++) {

        ProducerRecord<String, Long> producerRecord;

        if(i<50) {
            producerRecord = new ProducerRecord<String, 
 Long>("second-topic", "Amoeba", i);
        }else {
            producerRecord = new ProducerRecord<String, 
 Long>("second-topic", "Bacteria", i);
        }

        RecordMetadata recordMetadata = 
  parallelProducer.send(producerRecord).get();

        System.out.printf("Sent record : with key %s and value 
 %d to partition %s", producerRecord.key(), producerRecord.value(), 
 recordMetadata.partition());
        System.out.println();
    }

    parallelProducer.close();


}

}

根据文档,kafka经纪人决定通过使用密钥(将密钥散列)将特定消息放入哪个分区。 间隔一段时间后,我将更改记录的键,但每次消息仍将发送到同一分区。

示例控制台输出的代码:

  Sent record : with key Amoeba and value 0 to partition 1
  Sent record : with key Amoeba and value 1 to partition 1
  Sent record : with key Amoeba and value 2 to partition 1
  Sent record : with key Amoeba and value 3 to partition 1
  Sent record : with key Amoeba and value 4 to partition 1
  Sent record : with key Amoeba and value 5 to partition 1
  Sent record : with key Amoeba and value 6 to partition 1
  Sent record : with key Amoeba and value 7 to partition 1
  Sent record : with key Amoeba and value 8 to partition 1
  Sent record : with key Amoeba and value 9 to partition 1
  Sent record : with key Amoeba and value 10 to partition 1
  Sent record : with key Amoeba and value 11 to partition 1
  Sent record : with key Amoeba and value 12 to partition 1
  Sent record : with key Amoeba and value 13 to partition 1

 Sent record : with key Bacteria and value 87 to partition 1
 Sent record : with key Bacteria and value 88 to partition 1
 Sent record : with key Bacteria and value 89 to partition 1
 Sent record : with key Bacteria and value 90 to partition 1
 Sent record : with key Bacteria and value 91 to partition 1
 Sent record : with key Bacteria and value 92 to partition 1
 Sent record : with key Bacteria and value 93 to partition 1
 Sent record : with key Bacteria and value 94 to partition 1
 Sent record : with key Bacteria and value 95 to partition 1
 Sent record : with key Bacteria and value 96 to partition 1
 Sent record : with key Bacteria and value 97 to partition 1
 Sent record : with key Bacteria and value 98 to partition 1
 Sent record : with key Bacteria and value 99 to partition 1

3 个答案:

答案 0 :(得分:1)

一切正常。

在您的特定情况下,KafkaProducer使用的分区程序(确定分区)为两个键计算相同的分区:AmoebaBacteria。默认情况下,KafkaProducer使用org.apache.kafka.clients.producer.internals.DefaultPartitioner

建议:更改密钥或增加分区数。

通知:生产者决定将消息放置到哪个分区,而不是Broker。

答案 1 :(得分:1)

Producer<String, String> producer = new KafkaProducer<String, String> 更改代码 :

KafkaProducer<String, String> producer = new KafkaProducer<String, String>

默认情况下,接口实现将数据放入同一分区。所以使用 KafkaProducer 而不是简单的 Producer

答案 2 :(得分:0)

从 Apache Kafka 2.4 及更高版本开始,默认分区策略已更改为具有空键的记录,其中粘性分区是默认行为。

之前的循环策略意味着具有空键的记录将被拆分到多个分区,新的粘性分区策略将记录发送到同一个分区,直到分区的批处理“完成”(这由 batch.size 或 linger 定义) .ms)

查看这篇文章了解更多信息: Improvements with Sticky Partitioner