应用错误收集

时间：2016-04-11 17:54:58

标签： deployment apache-spark yarn

是否可以在单个大型Yarn群集中定义2个Spark群集？ Spark in Yarn模式我的意思是，当然我可以在独立模式下部署Spark。

说我有以下机器：

数字代表机架。在h我有HDFS，在k我有Kafka，在s和t我想安装Spark。在所有机器上都有纱线，因此特别是群集具有机架局部性的概念。

我希望在s和t上有2个隔离的Spark群集，这样如果我在任何一台机器上提交作业（在Yarn模式下），则不会在s机器上分配任务，反之亦然。

这可能吗？谢谢，E。

答案 0 :(得分：0)

这是不可能的，说实话，也没有意义。

Yarn是资源管理器，s *和t *是它的资源。由于您可以从任一节点提交spark作业，因此纱线不会区分它们，因此如果您设置参数，将动态分配您要求的资源。

现在，拆分资源是没有意义的，因为如果一个作业需要2个小时才能在3个节点上完成，那么在6个节点上完成可能只需要1个小时。纱线有它的队列，它跟踪传入的作业请求，因此它可以动态地减少/增加分配的内存到正在运行的作业。