是否可以在单个大型Yarn群集中定义2个Spark群集? Spark in Yarn模式我的意思是,当然我可以在独立模式下部署Spark。
说我有以下机器:
数字代表机架。在h我有HDFS,在k我有Kafka,在s和t我想安装Spark。在所有机器上都有纱线,因此特别是群集具有机架局部性的概念。
我希望在s和t上有2个隔离的Spark群集,这样如果我在任何一台机器上提交作业(在Yarn模式下),则不会在s机器上分配任务,反之亦然。
这可能吗? 谢谢,E。
答案 0 :(得分:0)
这是不可能的,说实话,也没有意义。
Yarn是资源管理器,s *和t *是它的资源。 由于您可以从任一节点提交spark作业,因此纱线不会区分它们,因此如果您设置参数,将动态分配您要求的资源。
现在,拆分资源是没有意义的,因为如果一个作业需要2个小时才能在3个节点上完成,那么在6个节点上完成可能只需要1个小时。纱线有它的队列,它跟踪传入的作业请求,因此它可以动态地减少/增加分配的内存到正在运行的作业。