YARN中资源管理器,节点管理器和应用程序主机的高可用性

时间:2013-11-02 00:48:07

标签: yarn

从阅读有关YARN的文档,我找不到有关YARN中资源管理器,节点管理器和应用程序主机的HA的任何相关信息。他们是单点故障吗?如果有,是否有任何改善计划?

2 个答案:

答案 0 :(得分:3)

YARN群集由可能大量的计算机(“节点”)组成。要成为群集的一部分,每个节点至少运行一个服务守护程序。服务守护程序的类型确定此节点在群集中播放的任务。

几乎所有节点都运行“节点管理器”服务deamon,这使它们成为“常规”YARN节点。节点管理器负责在这台机器上执行YARN作业的某个部分,而其他部分则在其他节点上执行。只在每个节点上运行单个节点管理器才有意义。对于1000节点YARN集群,可能有大约999个节点管理器在运行。因此,节点管理器确实在群集中冗余分布。如果一个节点管理器发生故障,则会分配其他节点管理器来接管其任务。

每个YARN作业都是自己的应用程序,并且在其中一个节点上为作业启动专用的应用程序主守护程序。对于另一个应用程序,另一个应用程序主机在另一个节点上启动应用程序的实际工作甚至在集群中的其他节点上执行。应用程序主机仅控制应用程序的整体执行。如果应用程序主机死亡,整个应用程序都会失败,但其他应用程序将继续运行。必须重新启动失败的应用程序。

资源管理器守护程序在一个专用YARN节点上运行,该节点仅负责启动应用程序(通过启动相关的应用程序主机),收集有关集群中所有节点的信息,并为计算机分配计算资源。资源管理器当前不是构建为HA,但这通常不是问题。如果资源管理器死亡,则需要重新启动所有应用程序。

答案 1 :(得分:0)

截至今天,Yarn支持高可用性资源管理器。它以主动/备用RM对的形式引入冗余,以消除单点故障。为了更深入的了解,您可以阅读Cloudera的这篇文章。

YARN (MRv2) ResourceManager High Availability