纱线容器,火花执行器和EMR中可用的节点之间是什么关系?

时间:2018-07-24 12:27:53

标签: apache-spark yarn amazon-emr

说,我有一个群集,其中包含1个主节点,3个核心节点和5个任务节点。如果我在YARN群集模式下运行spark作业,则驱动程序将在主节点上运行(主节点也可以运行执行程序吗?),每个容器可以有X个执行程序。我有3 + 5 = 8个容器吗?还是只有3个容器,因为只有核心节点才能存储数据?

此外,如果我有两个并发运行的spark作业,是否每个节点有2个单独的容器,每个spark作业有1个,还是2个spark作业的执行者每个节点共享1个容器?<​​/ p>

如果可以由用户设置Yarn容器的数量,即总的虚拟内存/每个内存,那么节点的物理数量是否有关系?

1 个答案:

答案 0 :(得分:0)

  

如果我在YARN群集模式下运行spark作业,则驱动程序将在   主节点

Spark驱动程序不在主节点上运行。主节点仅用于纱线/资源管理器,Spark驱动程序在核心节点上运行。

如果运行两个Spark作业,则两个作业都将在单个节点或不同节点中的单独容器上运行。

驱动程序在核心节点上运行,任务执行程序通常在任务节点上运行,但是您可以将它们配置为在核心/任务节点上运行。