指定YARN节点标签时,YARN应用程序无法启动

时间:2018-03-07 09:42:59

标签: hadoop apache-spark yarn google-cloud-dataproc

我正在尝试使用YARN node labels来标记工作节点,但是当我在YARN(Spark或简单的YARN应用程序)上运行应用程序时,这些应用程序无法启动。

  • 使用Spark,在指定--conf spark.yarn.am.nodeLabelExpression="my-label"时,作业无法启动(在Submitted application [...]上被阻止,请参阅下面的详细信息。)

  • 使用YARN应用程序(如distributedshell),在指定-node_label_expression my-label时,应用程序无法启动

以下是我迄今为止所做的测试。

YARN节点标签设置

我正在使用Google Dataproc来运行我的群集(例如:4名工作人员,2名preemptible nodes)。我的目标是强制任何YARN应用程序主机在不可抢占节点上运行,否则可以随时关闭该节点,从而使应用程序失败。

我正在使用YARN属性(--properties)创建群集以启用节点标签:

gcloud dataproc clusters create \
    my-dataproc-cluster \
    --project [PROJECT_ID] \
    --zone [ZONE] \
    --master-machine-type n1-standard-1 \
    --master-boot-disk-size 10 \
    --num-workers 2 \
    --worker-machine-type n1-standard-1 \
    --worker-boot-disk-size 10 \
    --num-preemptible-workers 2 \
    --properties 'yarn:yarn.node-labels.enabled=true,yarn:yarn.node-labels.fs-store.root-dir=/system/yarn/node-labels'

打包的Hadoop和Spark的版本:

  • Hadoop版本:2.8.2
  • Spark版本:2.2.0

之后,我创建了一个标签(my-label),并用这个标签更新了两个不可抢占的工人:

yarn rmadmin -addToClusterNodeLabels "my-label(exclusive=false)"
yarn rmadmin -replaceLabelsOnNode "\
    [WORKER_0_NAME].c.[PROJECT_ID].internal=my-label \
    [WORKER_1_NAME].c.[PROJECT_ID].internal=my-label"

我可以在YARN Web UI中看到创建的标签:

Label created on YARN

火花

当我运行一个简单示例(SparkPi)而未指定有关节点标签的信息时:

spark-submit \
  --class org.apache.spark.examples.SparkPi \
  --master yarn \
  --deploy-mode client \
  /usr/lib/spark/examples/jars/spark-examples.jar \
  10

在YARN Web UI的“计划程序”选项卡中,我看到在<DEFAULT_PARTITION>.root.default上启动了该应用程序。

但是当我运行指定spark.yarn.am.nodeLabelExpression的作业来设置Spark应用程序主机的位置时:

spark-submit \
    --class org.apache.spark.examples.SparkPi \
    --master yarn \
    --deploy-mode client \
    --conf spark.yarn.am.nodeLabelExpression="my-label" \
    /usr/lib/spark/examples/jars/spark-examples.jar \
    10

该作业未启动。从YARN Web UI,我看到:

  • YarnApplicationState ACCEPTED: waiting for AM container to be allocated, launched and register with RM.
  • 诊断Application is Activated, waiting for resources to be assigned for AM. Details : AM Partition = my-label ; Partition Resource = <memory:6144, vCores:2> ; Queue's Absolute capacity = 0.0 % ; Queue's Absolute used capacity = 0.0 % ; Queue's Absolute max capacity = 0.0 % ;

我怀疑与标签分区相关的队列(不是<DEFAULT_PARTITION,另一个)没有足够的资源来运行作业:

Spark job accepted

此处Used Application Master Resources<memory:1024, vCores:1>Max Application Master Resources<memory:0, vCores:0>。这就解释了为什么应用程序无法启动,但我无法弄清楚如何更改它。

我尝试更新不同的参数,但没有成功:

yarn.scheduler.capacity.root.default.accessible-node-labels=my-label

或者增加这些属性:

yarn.scheduler.capacity.root.default.accessible-node-labels.my-label.capacity
yarn.scheduler.capacity.root.default.accessible-node-labels.my-label.maximum-capacity
yarn.scheduler.capacity.root.default.accessible-node-labels.my-label.maximum-am-resource-percent
yarn.scheduler.capacity.root.default.accessible-node-labels.my-label.user-limit-factor
yarn.scheduler.capacity.root.default.accessible-node-labels.my-label.minimum-user-limit-percent

没有成功。

YARN申请

运行YARN应用程序时问题相同:

hadoop jar \
    /usr/lib/hadoop-yarn/hadoop-yarn-applications-distributedshell.jar \
    -shell_command "echo ok" \
    -jar /usr/lib/hadoop-yarn/hadoop-yarn-applications-distributedshell.jar \
    -queue default \
    -node_label_expression my-label

应用程序无法启动,并且日志不断重复:

INFO distributedshell.Client: Got application report from ASM for, appId=6, clientToAMToken=null, appDiagnostics= Application is Activated, waiting for resources to be assigned for AM. Details : AM Partition = my-label ; Partition Resource = <memory:6144, vCores:2> ; Queue's Absolute capacity = 0.0 % ; Queue's Absolute used capacity = 0.0 % ; Queue's Absolute max capacity = 0.0 % ; , appMasterHost=N/A, appQueue=default, appMasterRpcPort=-1, appStartTime=1520354045946, yarnAppState=ACCEPTED, distributedFinalState=UNDEFINED, [...]

如果我未指定-node_label_expression my-label,则应用程序将从<DEFAULT_PARTITION>.root.default开始并成功。

问题

  • 我是否对标签做错了什么?但是,我按照official documentationthis guide
  • 进行了操作
  • 这是与Dataproc相关的特定问题吗?因为以前的指南似乎适用于其他环境
  • 也许我需要创建一个特定的队列并将其与我的标签相关联?但是由于我正在运行“一次性”集群来运行单个Spark作业,所以我不需要具有特定队列,在默认根目录上运行作业对我的用例来说不是问题

感谢您的帮助

1 个答案:

答案 0 :(得分:3)

Google工程师回答了我们(在我们提出的私人问题上,而不是在PIT中),并通过为Dataproc群集创建指定初始化脚本为我们提供了解决方案。我不认为问题来自Dataproc,这基本上只是YARN配置。在创建节点标签(capacity-scheduler.xml)之后,该脚本在my-label中设置以下属性:

<property>
  <name>yarn.scheduler.capacity.root.accessible-node-labels</name>
  <value>my-label</value>
</property>
<property>
  <name>yarn.scheduler.capacity.root.accessible-node-labels.my-label.capacity</name>
  <value>100</value>
</property>
<property>
  <name>yarn.scheduler.capacity.root.default.accessible-node-labels</name>
  <value>my-label</value>
</property>
<property>
  <name>yarn.scheduler.capacity.root.default.accessible-node-labels.my-label.capacity</name>
  <value>100</value>
</property>

根据脚本的评论,这个&#34;在accessible-node-labels(根队列) root上设置root.default(默认队列应用程序实际上已运行)&#34;。 root.default部分是我的测试中缺少的部分。两者的容量都设置为100。

然后,需要重新启动YARN(systemctl restart hadoop-yarn-resourcemanager.service)来验证修改。

之后,我能够开始在我的问题中未能完成的工作。

希望能帮助有相同问题或类似问题的人。