Spark使用者如何读取Kafka主题分区?

时间:2020-07-31 10:20:40

标签: java apache-spark apache-kafka spark-streaming

我很好奇知道火花执行器在阅读kafka主题时将如何工作。

比方说,我有一个带有6个分区的kafka主题,并且在一个订阅了kafka主题的消费者组中有一个Spark消费者。我执行了具有6个执行器和2个内核的spark使用者。现在,我想了解是否:

  1. 无论执行者有多少,消费者都会从主题中读取一对一的分区。 (花了6倍的时间来阅读)
  2. 由于执行程序的数量为6,因此每个执行程序将开始从主题中的每个分区读取。 (执行程序到分区的一对一映射,实现并行性)

我已经尝试通过提交具有6个执行者的单个spark使用者来读取主题中的6个分区的上述方案。一次只有一名执行者被分配任务,而其余(5)位执行者则处于闲置状态。请说明这种情况。

0 个答案:

没有答案