想象一下EMR中的两种情况:
在单个节点上以本地模式运行Spark作业。
在集群模式下的小型两个节点集群(主节点和从节点)上运行相同的作业。
我的问题是:这两项工作会花费相似的时间吗?
根据我的理解,主节点本身不会执行任何任务,是真的吗?小型集群是否可以“启用”要在主节点上运行的任务?
答案 0 :(得分:0)
要回答第一个问题,在给定场景下,性能取决于您在单个节点和两个节点群集中运行的执行程序的数量。
如果没有。在这两种情况下,执行器的值保持不变,您将获得几乎相同的性能。会有细微的差异,因为在2节点群集中,会有更多的网络和调度程序开销,这是最低要求。
在单节点集群中,所有驱动程序,集群管理器和执行程序都将在同一节点上运行。这意味着同一单个节点的行为类似于主节点和工作节点,并在同一台机器上运行驱动程序和执行程序并执行任务