我有两位卡夫卡消费者ConsumerA
和ConsumerB
。我想在同一台机器上独立运行这两个kafka消费者。它们之间根本没有关系。这两位kafka消费者将在同一台机器上处理不同的主题。
以下是我的设计:
消费者类(摘要):
public abstract class Consumer implements Runnable {
private final Properties consumerProps;
private final String consumerName;
public Consumer(String consumerName, Properties consumerProps) {
this.consumerName = consumerName;
this.consumerProps = consumerProps;
}
protected abstract void shutdown();
protected abstract void run(String consumerName, Properties consumerProps);
@Override
public final void run() {
run(consumerName, consumerProps);
}
}
ConsumerA class:
public class ConsumerA extends Consumer {
private final AtomicBoolean closed = new AtomicBoolean(false);
private KafkaConsumer<byte[], byte[]> consumer;
public ConsumerA(String consumerName, Properties consumerProps) {
super(consumerName, consumerProps);
}
@Override
public void shutdown() {
closed.set(true);
consumer.wakeup();
}
@Override
protected void run(String consumerName, Properties consumerProps) {
consumer = new KafkaConsumer<>(consumerProps);
consumer.subscribe(getTopicsBasisOnConsumerName());
Map<String, Object> config = new HashMap<>();
config.put(Config.URLS, TEST_URL);
GenericRecordDomainDataDecoder decoder = new GenericRecordDomainDataDecoder(config);
try {
while (!closed.get()) {
ConsumerRecords<byte[], byte[]> records = consumer.poll(Long.MAX_VALUE);
for (ConsumerRecord<byte[], byte[]> record : records) {
GenericRecord payload = decoder.decode(record.value());
// extract data from payload
System.out.println("topic = %s, partition = %s, offset = %d, customer = %s, country = %s\n",
record.topic(), record.partition(), record.offset(), record.key(), record.value());
}
consumer.commitAsync();
}
} catch (WakeupException ex) {
// Ignore exception if closing
System.out.println("error= ", ex);
if (!closed.get()) throw e;
} catch (Exception ex) {
System.out.println("error= ", ex);
} finally {
try {
consumer.commitSync();
} finally {
consumer.close();
}
}
}
}
ConsumerA B class:
// similar to `ConsumerA` but with specific details of B
ConsumerHandler类:
public final class ConsumerHandler {
private final ExecutorService executorServiceConsumer;
private final Consumer consumer;
private final List<Consumer> consumers = new ArrayList<>();
public ConsumerHandler(Consumer consumer, int poolSize) {
this.executorServiceConsumer = Executors.newFixedThreadPool(poolSize);
this.consumer = consumer;
for (int i = 0; i < poolSize; i++) {
this.consumers.add(consumer);
executorServiceConsumer.submit(consumer);
}
}
public void shutdown() {
Runtime.getRuntime().addShutdownHook(new Thread() {
@Override
public void run() {
for (Consumer consumer : consumers) {
consumer.shutdown();
}
executorServiceConsumer.shutdown();
try {
executorServiceConsumer.awaitTermination(1000, TimeUnit.MILLISECONDS);
} catch (InterruptedException ex) {
Thread.currentThread().interrupt();
}
}
});
}
}
下面是我的一个项目中的主要课程,如果我启动服务器,将首先自动拨打电话,然后从这个地方开始我的所有kafka消费者,我执行ConsumerA
和ConsumerB
。一旦调用shutdown,我就通过在所有Kafka消费者上调用shutdown来释放所有资源。
import javax.annotation.PostConstruct;
import javax.annotation.PreDestroy;
import javax.inject.Singleton;
@Singleton
@DependencyInjectionInitializer
public class Initializer {
private ConsumerHandler consumerHandlerA;
private ConsumerHandler consumerHandlerB;
@PostConstruct
public void init() {
consumerHandlerA = new ConsumerHandler (new ConsumerA("consumerA", getConsumerPropsA()), 3);
consumerHandlerB = new ConsumerHandler (new ConsumerB("consumerB", getConsumerPropsB()), 3);
}
@PreDestroy
public void shutdown() {
consumerHandlerA.shutdown();
consumerHandlerB.shutdown();
}
}
对于我想在同一个盒子上运行多个kafka消费者的这类问题,这是正确的设计吗?如果有更好更有效的方法来解决这个问题,请告诉我。一般情况下,我会在同一个盒子上运行三到四个Kafka消费者,每个消费者可以根据需要拥有自己的消费者群体。
以下是我在消费者中使用的KafkaConsumer的Javadoc。基于这个article我已经创建了我的消费者,只是我使用了抽象类来扩展它。 在该链接中搜索“全部放在一起”。
在文档中提到消费者不是线程安全的,但看起来我的代码正在为池中的每个线程重用相同的消费者实例。
public ConsumerHandler(Consumer consumer, int poolSize) {
this.executorServiceConsumer = Executors.newFixedThreadPool(poolSize);
this.consumer = consumer;
for (int i = 0; i < poolSize; i++) {
this.consumers.add(consumer);
executorServiceConsumer.submit(consumer);
}
}
解决此线程安全问题并仍能实现相同功能的最佳方法是什么?
答案 0 :(得分:0)
快速建议,如果您已经知道,请道歉。类级变量永远不是线程安全的。如果需要为每个线程使用不同的Properties对象,最好在方法级别声明它们,并将它们作为参数提供给需要访问Properties对象的其他方法。
答案 1 :(得分:0)
解决最简单的解决方案“解决此线程安全问题的最佳方法是什么,仍能实现相同的功能?” :
不要实现多线程(Thread API / Executor Service),而是在每个单独的JVM进程中使用并运行每个使用者作为单个使用者,因此如果您需要在同一台计算机上使用4个使用者并且您不希望处理mutli线程头痛然后让你的kafka消费者代码JAR在它自己的4个独立的Java进程中运行。
答案 2 :(得分:-1)
尝试Apache Samza.它解决了这些消费者问题。没有杂乱(有时是有问题的)线程处理,通过集群实现冗余,经过数万亿经过验证的已处理消息的成熟解决方案等等。我们目前在集群上运行多个作业。我们的代码远比您在此处的代码复杂。