如何每30分钟在python中消耗kafka队列

时间:2019-03-15 10:03:10

标签: apache-kafka kafka-consumer-api kafka-python

我在python中遇到有关kafka使用者的问题,这是我的用例kafka生产者将在实时流中每秒发送一次数据。但是卡夫卡消费者需要每30分钟消费一次并收集一批数据。帮我解决。

1 个答案:

答案 0 :(得分:1)

如果您不想实时处理数据,则可能需要重新考虑,如果Kafka是适合您的解决方案。但是,您可以尝试以下方法:

 Properties props = new Properties();
 props.put("bootstrap.servers", "localhost:9092");
 props.put("group.id", "your_consumer_group");
 props.put("enable.auto.commit", "true");
 props.put("auto.commit.interval.ms", "1000");
 props.put("session.timeout.ms", "30000");
 props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
 props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
 KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);
 consumer.subscribe(Arrays.asList("foo", "bar"));
 while (true) {
     ConsumerRecords<String, String> records = consumer.poll(1000);
     for (ConsumerRecord<String, String> record : records) {
         System.out.printf("offset = %d, key = %s, value = %s", record.offset(), record.key(), record.value());
     }

     // After data is consumed, you make your thread sleep until next 30 min:
     Thread.sleep(30 * 60 * 1000);
 }

如果您希望在每小时的第30分钟或第0分钟进行实时批处理,则可以使用这种睡眠方式:

Thread.sleep(System.currentTimeMillis() % (30*60*1000));

这会使您的消费者在00:0000:3001:0001:30等处醒来。 请点击以下链接了解详细信息:https://kafka.apache.org/0100/javadoc/index.html?org/apache/kafka/clients/consumer/KafkaConsumer.html

同样,您可能不想以这种方式使用kafka。最好将数据转储到某些存储设备(例如按日期时间划分的镶木文件),并每30分钟对其进行一些批处理。