使用高级消费者和简单消费者的kafka压缩

时间:2015-01-22 15:25:46

标签: java c++ hadoop apache-kafka snappy

在我的应用程序中,如果生产者和消费者使用java API压缩和解压缩数据,我们正在使用Kafka高级消费者,它消耗解压缩的数据而没有任何问题。

如果制作人使用 librdkafka C ++ API进行压缩(snappy或GZIP),会发生什么? java消费者能否像上面提到的那样透明地解压缩。消费者端的提取大小会发生什么?这也是透明处理的。

如果kafka消费者是使用简单的消费者模式设计的,会发生什么?我们是否必须明确解压缩来自生产者的压缩数据(假设 librdkafka 此处使用的C ++ API)。

我认为高级消费者可能无法在生产者端使用 librdkafka C ++ API进行压缩的情况下工作?请告诉我,如果我在这里错了,因为我在这里看了一些其他帖子Kafka message codec - compress and decompress。与此相反,我发现另一个链接说如果高级消费者使用http://grokbase.com/t/kafka/users/142veppeyv/unable-to-consume-snappy-compressed-messages-with-simple-consumer,减压应该有效。

由于

2 个答案:

答案 0 :(得分:3)

它们是兼容的,librdkafka使用与Scala / Java客户端相同的压缩和框架。

增加fetch.message.max.bytes允许消费者使用每个请求获取更大的消息或更大批量的消息,但它通常可以保留其默认值,除非您的生成者生成大于此值的消息 - 在这种情况下你还需要增加message.max.bytes

压缩仅在生产者上配置,消费者端不需要配置,因为每个消息(或一批消息)都标记有压缩类型(none,snappy,gzip,..)。

答案 1 :(得分:0)

所有这些分布式生产者/经纪人/消费者的主要思想是无缝透明地相互合作。这意味着你不应该知道(和关心):

  • 生产者如何实施
  • 他们使用什么压缩(如果有的话)
  • 有多少生产商/经纪人

您的消费者只需要听他的主题/分区,并知道如何处理消息。

您可以将其视为网络的类比:您的浏览器不关心SO是如何编写的,服务器运行的是什么,是否使用gzip等等。只要他们都说http - 它就会起作用。