如果我没有其他集群软件,是否值得在YARN上部署Spark?

时间:2016-04-25 07:42:21

标签: apache-spark pyspark yarn

我有一个以独立模式运行的Spark群集。我目前正在使用Jupyter笔记本调用pyspark执行代码。使用YARN作为集群管理器是否有好处,假设机器没有做任何其他事情?

使用YARN可以获得更好的性能吗?如果是这样,为什么?

非常感谢,

约翰

1 个答案:

答案 0 :(得分:0)

考虑到这些要点,我说“是”。

为什么要在YARN上运行?

使用YARN作为Spark的集群管理器比Spark独立版提供了一些好处:

  1. 您可以利用YARN调度程序的所有功能来分类,隔离和确定工作负载的优先级
  2. 任何Spark独立模式还需要worker来进行无法运行非Spark应用程序的slave活动,而YARN则将其隔离在容器中,因此采用另一个计算框架应该是代码更改而不是infra +代码。因此,集群可以在不同的框架之间共享。
  3. YARN是Spark支持安全性的唯一集群管理器。同 YARN,Spark可以运行Kerberized Hadoop集群和使用 在其进程之间进行安全认证。
  4. YARN允许您动态共享和集中配置 在YARN上运行的所有框架之间的集群资源池。 您可以将整个集群放在MapReduce作业中,然后使用一些 它在Impala查询上,其余部分在Spark应用程序上,没有 配置中的任何更改。
  5. 我认为1,2和3适用于上述场景,但不适用于第4点,因为我们假设没有其他框架会使用群集。

    souce