我是Spark的新手,正在学习架构。我了解到Spark支持3个集群管理器,例如YARN,Standalone和Mesos。
在纱线簇模式下,Spark驱动程序驻留在资源管理器中,而执行器驻留在纱线的节点容器管理器中。
在独立群集模式下,Spark驱动程序驻留在主进程中,执行程序驻留在从属进程中。
如果我的理解是正确的,那么是否需要在Yarn群集的所有节点Mangers(独立群集的从属节点)上安装spark
答案 0 :(得分:2)
如果在具有多个节点的群集上将yarn用作管理器,则无需在每个节点上安装spark。提交作业后,Yarn将把spark二进制文件分发到节点。
https://spark.apache.org/docs/latest/running-on-yarn.html
在YARN上运行Spark需要使用YARN支持构建的Spark二进制分发版。可以从项目网站的下载页面下载二进制发行版。要自己构建Spark,请参阅构建Spark。
要使YARN端可以访问Spark运行时jar,可以指定spark.yarn.archive或spark.yarn.jars。有关详细信息,请参阅Spark属性。如果未指定spark.yarn.archive和spark.yarn.jars,Spark将创建一个zip文件,其中所有jar都位于$ SPARK_HOME / jars下,并将其上传到分布式缓存。