随后提交的dmlx XGBoost作业处于“接受”状态时处于Yarn状态

时间:2019-06-10 11:28:16

标签: amazon-web-services hadoop yarn xgboost

我在AWS中有一个3节点集群(1个主节点和2个从节点)
配置:
主(8 vCPU,16 GB)
slave1(4 vCPU,8 GB)
slave1(4 vCPU,8 GB)

当我提交dmlc-xgboost作业以使其按预期运行时,但是如果我在5分钟内再次提交相同的作业,它就会卡住。 如果作业是连续6分钟左右提交的,则可以正常运行。

我试图检查纱线被卡住的原因,并显示如下内容

  

[Sun Jun 09 09:03:53 +0000 2019]应用程序已添加到调度程序中   并且尚未激活。 队列AM资源超出限制。细节   :AM分区=; AM资源请求=   ; AM =的队列资源限制;队列的用户AM资源限制=;队列AM资源使用率=;

在读取互联网上的所有线程后尝试修改纱线参数,但是还算幸运。

以下是我当前正在使用的配置。

capacity-scheduler.xml

yarn.scheduler.capacity.maximum-applications:10000
yarn.scheduler.capacity.maximum-am-resource-percent:0.9
yarn.scheduler.capacity.resource-calculator:org.apache.hadoop.yarn.util.resource.DefaultResourceCalculator
yarn.scheduler.capacity.root.queues:默认

yarn-site.xml

yarn.acl.enable:0
yarn.resourcemanager.hostname:节点主控
yarn.nodemanager.aux-services:mapreduce_shuffle
yarn.nodemanager.resource.memory-mb:4608
yarn.scheduler.maximum-allocation-mb:4608
yarn.scheduler.minimum-allocation-mb:1536
yarn.nodemanager.vmem-check-enabled:false
yarn.app.mapreduce.am.resource.mb:3072

mapred-site.xml

mapreduce.framework.name:纱线
yarn.app.mapreduce.am.resource.mb:1536
mapreduce.map.memory.mb:1536
mapreduce.reduce.memory.mb:3072

任何帮助将不胜感激。

0 个答案:

没有答案