我们最近遇到了一个问题,其中一些Kafka分区丢失了,工作继续进行而没有失败。同时,添加了新的kafka分区。似乎我们的Spark Streaming作业没有重新启动,并且它没有从新分区接收任何数据,直到我们注意到计数之间的差异。我们重新开始了工作,一切都很好。所以我的问题是,spark-kafka流式API是否不时检查是否添加了新分区?有启用它的特殊设置吗?
答案 0 :(得分:0)
AFAIK,当添加新主题/分区时,Spark的Kafka Consumer将不会自动重新平衡其消费者组。
这是将Spark Streaming与Kafka Streams进行比较时列出的好处之一,因为Kafka Streams将重新平衡