收集未成功写入Kafka

时间:2016-11-29 13:12:04

标签: java apache-kafka kafka-producer-api

我正在读取文件并将每条记录转储到Kafka上。这是我的制作人代码:

public void produce(String topicName, String filePath, String bootstrapServers, String encoding) {
     try (BufferedReader bf = getBufferedReader(filePath, encoding);
                 KafkaProducer<Object, String> producer = initKafkaProducer(bootstrapServers)) {
                String line;
                long count = 0;
                while ((line = bf.readLine()) != null) {
                    count++;
                    producer.send(new ProducerRecord<>(topicName, line), (metadata, e) -> {
                        if(e != null){
                            e.printStackTrace();
                            //write record to some file.
                        }
                    });
                }
                producer.flush();
                CustomLogger.log("Done producing data messages. Total no of records produced:" + count);
            } catch (IOException e) {
                Throwables.propagate(e);
            }
}
 private static KafkaProducer<Object, String> initKafkaProducer(String bootstrapServer) {
        Properties properties = new Properties();
        properties.put("bootstrap.servers", bootstrapServer);
        properties.put("key.serializer", StringSerializer.class.getCanonicalName());
        properties.put("value.serializer", StringSerializer.class.getCanonicalName());
        properties.put("acks", "-1");
        properties.put("retries", 4);
        return new KafkaProducer<>(properties);
    }

private BufferedReader getBufferedReader(String filePath, String encoding) throws UnsupportedEncodingException, FileNotFoundException {
    return new BufferedReader(new InputStreamReader(new FileInputStream(filePath), Optional.ofNullable(encoding).orElse("UTF-8")));
}

根据我们的基本测试,由于TimeoutException,有可能生成消息失败。但是根据official documentation of Callback TimeoutException是一个可重试的异常。下次重试意味着可能会生成此消息。因此,如果我在回调中发现TimeoutException,我不能认为记录发送失败。是否有任何可行的方式使用我肯定会说记录发送失败并将其记录在单独的文件中?

1 个答案:

答案 0 :(得分:2)

我简要地看了一下代码,并且没有想到,你需要在这里区分可重复和不可重复的异常,因为这已经发生在KafkaProducer中。

当您使用 retries 值大于1配置生产者时,它将重新发送任何消息(批处理),这些消息(批处理)在返回时返回的可重复异常次数与您告知的次数相同。你不例外。

所以基本上,你得到的任何消息都是生产者放弃的例外。

查看completeBatch&amp;代码中canRetry来确认我的理解,但我个人认为这种行为是有道理的。