具有kafka消费者记录的并行流

时间:2017-11-12 15:53:33

标签: java apache-kafka kafka-consumer-api

我有kafka记录:

ConsumerRecords<String, Events> records = kafkaConsumer.poll(POLL_TIMEOUT);

我想使用并行流运行以下代码,而不是多线程。

                records.forEach((record) -> {
                Event event = record.value();

                       HTTPSend.send(event);

            });

我尝试使用mlutithreading,但我想尝试parallelstream:

for (ConsumerRecord<String, Event> record : records) {
                        executor.execute(new Runnable() {
                            @Override
                            public void run() {

                                        HTTPSend.send(Event);

                            }
                        });

                    }

实际上我遇到了带有多线程的HTTP.send问题(即使是1个线程的线程池)。我正在

"Caused by: sun.security.validator.ValidatorException: PKIX path building failed: sun.security.provider.certpath.SunCertPathBuilderException: unable to find valid certification path to requested target"。 这是对https的请求。此错误仅在第一次发出请求时出现。之后,异常消失了。噗!

对于我正在使用的多线程:

int threadCOunt=1;
                BlockingQueue<Runnable> queue = new ArrayBlockingQueue<Runnable>(threadCOunt, true);
                RejectedExecutionHandler handler = new ThreadPoolExecutor.CallerRunsPolicy();
                ExecutorService executor = new ThreadPoolExecutor(threadCOunt, threadCOunt, 0L, TimeUnit.MILLISECONDS, queue, handler);

HTTPSend.send()是:

long sizeSend = 0;
    SSLContext sc = null;

    try {
        sc = SSLContext.getInstance("TLS");
        sc.init(null, TRUST_ALL_CERTS, new SecureRandom());
    } catch (NoSuchAlgorithmException | KeyManagementException e) {
        LOGGER.error("Failed to create SSL context", e);
    }

    // Ignore differences between given hostname and certificate hostname
    HostnameVerifier hv = (hostname, session) -> true;

    // Create the REST client and configure it to connect meta
    Client client = ClientBuilder.newBuilder()
            .hostnameVerifier(hv)
            .sslContext(sc).build();

    WebTarget baseTarget = client.target(getURL()).path(HTTP_PATH);
    Response jsonResponse = null;

    try {
        StringBuilder eventsBatchString = new StringBuilder();
        eventsBatchString.append(this.getEvent(event));
        Entity<String> entity = Entity.entity(eventsBatchString.toString(), MediaType.APPLICATION_JSON_TYPE);
        builder = baseTarget.request();
        LOGGER.debug("about to send the event {} and URL {}", entity, getURL());
        jsonResponse = builder.header(HTTP_ACK_CHANNEL, guid.toString())
                .header("Content-type", MediaType.APPLICATION_JSON)
                .header("Authorization", String.format("Meta %s", eventsModuleConfig.getSecretKey()))
                .post(entity);

1 个答案:

答案 0 :(得分:0)

我知道你想做什么,我不确定这是最好的主意(我也不确定它是不是)。

Kafka的poll / commit模型允许简单的背压并保留最后处理的物品(如果您崩溃)。通过“立即”返回你的轮询循环,你告诉Kafka“我准备好了更多”,并且提交偏移(手动或自动)告诉Kafka你已经成功读到了这一点。

您似乎想要做的是尽快读取Kafka,提交抵消,然后将Kafka记录放入执行程序队列,然后平衡每秒的请求等。

我不是百分百肯定这是一个好主意:如果你的应用程序崩溃会发生什么?您可能已经提交了一些实际上没有上游的Kafka消息。如果你真的想这样做,我会建议在commitSync完成后手动提交偏移量(通过Runnable),而不是让高级消费者为你做这件事。

为什么你想要使用线程执行器:我认为这些也可以用Kafka完成。

您可能希望同时向Web服务器发送多条消息。一个良好分区的Kafka主题将让多个消费者/消费者群体消费多个分区,因此 - 假设一个完美扩展的HTTP服务器 - 将允许您将消息的发布并行化到您的服务器。是基于流程的并发!

可能Web服务器不是完全可扩展的,或者对于此请求来说速度慢(假设每个请求需要1秒):您需要限制Web服务器每秒的请求数,如果您有队列,则可能需要在没有备份卡夫卡的情况下张贴了几个帖子。

在这种情况下,您可以将max.poll.records设置为Web服务器所需的可伸缩值。可能有更好的方法来做到这一点,虽然它现在正在逃避我。

如果您的Web服务器需要很长时间才能响应,则可能会出现与心跳失败相关的错误。在这种情况下,我会引导您this SO answer on the timeout / heartbeat topic

而不是使用线程执行器,从而使同步HTTP请求看起来是异步的,我会使用像Netty这样的公平HTTP客户端,从而实现没有基于线程的并发的并行性。