spark.streaming.kafka.consumer.cache.enabled属性有效/影响Kafka Consumers的性能

时间:2019-02-07 06:32:31

标签: apache-spark apache-kafka spark-streaming

我在应用程序的属性中遇到了配置 spark.streaming.kafka.consumer.cache.enabled = false ,令人惊讶的是,我们团队中没有人知道这如何帮助我们实现更好的性能。它是在Cloudera支持的建议下添加的。我在Spark Docs中找不到有关此属性的详细说明。谁能帮助我了解此配置如何影响Kafka Consumer的性能。

1 个答案:

答案 0 :(得分:0)

Looking at the source code,您会看到它具有一个useCache : Boolean值,并且似乎正在根据组ID和主题+分区分配将内部KafkaConsumer对象放入此缓存中。

我不知道为什么缓存消费者会“表现得更好”,但是我猜想不缓存他们会使Kafka消费者群体重新平衡以“更好”地运作< / p>

如果您认为此属性缺少必要的文档,那么我建议您打开JIRA