是否需要在集群的所有节点上安装spark

时间:2019-06-14 05:34:47

标签: apache-spark yarn

我是Spark的新手,正在学习架构。我了解到Spark支持3个集群管理器,例如YARN,Standalone和Mesos。

在纱线簇模式下,Spark驱动程序驻留在资源管理器中,而执行器驻留在纱线的节点容器管理器中。

在独立群集模式下,Spark驱动程序驻留在主进程中,执行程序驻留在从属进程中。

如果我的理解是正确的,那么是否需要在Yarn群集的所有节点Mangers(独立群集的从属节点)上安装spark

1 个答案:

答案 0 :(得分:2)

如果在具有多个节点的群集上将yarn用作管理器,则无需在每个节点上安装spark。提交作业后,Yarn将把spark二进制文件分发到节点。

https://spark.apache.org/docs/latest/running-on-yarn.html

  

在YARN上运行Spark需要使用YARN支持构建的Spark二进制分发版。可以从项目网站的下载页面下载二进制发行版。要自己构建Spark,请参阅构建Spark。

     

要使YARN端可以访问Spark运行时jar,可以指定spark.yarn.archive或spark.yarn.jars。有关详细信息,请参阅Spark属性。如果未指定spark.yarn.archive和spark.yarn.jars,Spark将创建一个zip文件,其中所有jar都位于$ SPARK_HOME / jars下,并将其上传到分布式缓存。