我在AWS中有一个3节点集群(1个主节点和2个从节点)
配置:
主(8 vCPU,16 GB)
slave1(4 vCPU,8 GB)
slave1(4 vCPU,8 GB)
当我提交dmlc-xgboost作业以使其按预期运行时,但是如果我在5分钟内再次提交相同的作业,它就会卡住。 如果作业是连续6分钟左右提交的,则可以正常运行。
我试图检查纱线被卡住的原因,并显示如下内容
[Sun Jun 09 09:03:53 +0000 2019]应用程序已添加到调度程序中 并且尚未激活。 队列AM资源超出限制。细节 :AM分区=; AM资源请求= ; AM =的队列资源限制;队列的用户AM资源限制=;队列AM资源使用率=;
在读取互联网上的所有线程后尝试修改纱线参数,但是还算幸运。
以下是我当前正在使用的配置。
capacity-scheduler.xml
yarn.scheduler.capacity.maximum-applications:10000
yarn.scheduler.capacity.maximum-am-resource-percent:0.9
yarn.scheduler.capacity.resource-calculator:org.apache.hadoop.yarn.util.resource.DefaultResourceCalculator
yarn.scheduler.capacity.root.queues:默认
yarn-site.xml
yarn.acl.enable:0
yarn.resourcemanager.hostname:节点主控
yarn.nodemanager.aux-services:mapreduce_shuffle
yarn.nodemanager.resource.memory-mb:4608
yarn.scheduler.maximum-allocation-mb:4608
yarn.scheduler.minimum-allocation-mb:1536
yarn.nodemanager.vmem-check-enabled:false
yarn.app.mapreduce.am.resource.mb:3072
mapred-site.xml
mapreduce.framework.name:纱线
yarn.app.mapreduce.am.resource.mb:1536
mapreduce.map.memory.mb:1536
mapreduce.reduce.memory.mb:3072
任何帮助将不胜感激。