我在应用程序的属性中遇到了配置 spark.streaming.kafka.consumer.cache.enabled = false ,令人惊讶的是,我们团队中没有人知道这如何帮助我们实现更好的性能。它是在Cloudera支持的建议下添加的。我在Spark Docs中找不到有关此属性的详细说明。谁能帮助我了解此配置如何影响Kafka Consumer的性能。
答案 0 :(得分:0)
Looking at the source code,您会看到它具有一个useCache : Boolean
值,并且似乎正在根据组ID和主题+分区分配将内部KafkaConsumer对象放入此缓存中。
我不知道为什么不缓存消费者会“表现得更好”,但是我猜想不缓存他们会使Kafka消费者群体重新平衡以“更好”地运作< / p>
如果您认为此属性缺少必要的文档,那么我建议您打开JIRA