单纱集群中的两个Spark集群

时间:2016-04-11 17:54:58

标签: deployment apache-spark yarn

是否可以在单个大型Yarn群集中定义2个Spark群集? Spark in Yarn模式我的意思是,当然我可以在独立模式下部署Spark。

说我有以下机器:

  • h1,h2,h3
  • k4,k5,k6
  • s1,s2,s3,s4,s5,s6
  • t1,t2,t3

数字代表机架。在h我有HDFS,在k我有Kafka,在s和t我想安装Spark。在所有机器上都有纱线,因此特别是群集具有机架局部性的概念。

我希望在s和t上有2个隔离的Spark群集,这样如果我在任何一台机器上提交作业(在Yarn模式下),则不会在s机器上分配任务,反之亦然。

这可能吗? 谢谢,E。

1 个答案:

答案 0 :(得分:0)

这是不可能的,说实话,也没有意义。

Yarn是资源管理器,s *和t *是它的资源。 由于您可以从任一节点提交spark作业,因此纱线不会区分它们,因此如果您设置参数,将动态分配您要求的资源。

现在,拆分资源是没有意义的,因为如果一个作业需要2个小时才能在3个节点上完成,那么在6个节点上完成可能只需要1个小时。纱线有它的队列,它跟踪传入的作业请求,因此它可以动态地减少/增加分配的内存到正在运行的作业。