在EMR中以集群模式运行Spark作业时,是否还可以在主节点中执行任务?

时间:2018-10-19 19:05:00

标签: apache-spark cluster-computing amazon-emr

想象一下EMR中的两种情况:

  1. 在单个节点上以本地模式运行Spark作业。

  2. 在集群模式下的小型两个节点集群(主节点和从节点)上运行相同的作业。

我的问题是:这两项工作会花费相似的时间吗?

根据我的理解,主节点本身不会执行任何任务,是真的吗?小型集群是否可以“启用”要在主节点上运行的任务?

1 个答案:

答案 0 :(得分:0)

要回答第一个问题,在给定场景下,性能取决于您在单个节点和两个节点群集中运行的执行程序的数量。

如果没有。在这两种情况下,执行器的值保持不变,您将获得几乎相同的性能。会有细微的差异,因为在2节点群集中,会有更多的网络和调度程序开销,这是最低要求。

在单节点集群中,所有驱动程序,集群管理器和执行程序都将在同一节点上运行。这意味着同一单个节点的行为类似于主节点和工作节点,并在同一台机器上运行驱动程序和执行程序并执行任务