应用错误收集

我在AWS中有一个3节点集群（1个主节点和2个从节点）
配置：
主（8 vCPU，16 GB）
slave1（4 vCPU，8 GB）
slave1（4 vCPU，8 GB）

当我提交dmlc-xgboost作业以使其按预期运行时，但是如果我在5分钟内再次提交相同的作业，它就会卡住。如果作业是连续6分钟左右提交的，则可以正常运行。

我试图检查纱线被卡住的原因，并显示如下内容

[Sun Jun 09 09:03:53 +0000 2019]应用程序已添加到调度程序中并且尚未激活。 队列AM资源超出限制。细节：AM分区=; AM资源请求= ; AM =的队列资源限制；队列的用户AM资源限制=;队列AM资源使用率=;

在读取互联网上的所有线程后尝试修改纱线参数，但是还算幸运。

以下是我当前正在使用的配置。

capacity-scheduler.xml

yarn.scheduler.capacity.maximum-applications：10000
yarn.scheduler.capacity.maximum-am-resource-percent：0.9
yarn.scheduler.capacity.resource-calculator：org.apache.hadoop.yarn.util.resource.DefaultResourceCalculator
yarn.scheduler.capacity.root.queues：默认

yarn-site.xml

yarn.acl.enable：0
yarn.resourcemanager.hostname：节点主控
yarn.nodemanager.aux-services：mapreduce_shuffle
yarn.nodemanager.resource.memory-mb：4608
yarn.scheduler.maximum-allocation-mb：4608
yarn.scheduler.minimum-allocation-mb：1536
yarn.nodemanager.vmem-check-enabled：false
yarn.app.mapreduce.am.resource.mb：3072

mapred-site.xml

mapreduce.framework.name：纱线
yarn.app.mapreduce.am.resource.mb：1536
mapreduce.map.memory.mb：1536
mapreduce.reduce.memory.mb：3072

任何帮助将不胜感激。

随后提交的dmlx XGBoost作业处于“接受”状态时处于Yarn状态

0 个答案: