在运行配置单元作业时,纱线使用100%的资源

时间:2015-07-06 16:22:41

标签: hadoop memory hive yarn ambari

我正在经营一个蜂巢工作。工作是将数据从一个具有文本文件格式的表加载到另一个具有orc格式的表。

我正在使用

>condition
    ss clusters   ICC items CondNum
1 1000       10 0.053    10     108
2 1000       10 0.053    10     108
3 1000       10 0.053    10     108
4 300        10  0.10    20       2
...
51,998 5000      100 0.4    20   210 
51,999 5000      100 0.4    20   210 

当我通过ambari web控制台监控工作时,我发现使用的YARN内存是100%。

请您建议如何保持健康的纱线记忆。

所有三个数据节点的负载平均值;

INSERT INTO TABLE ORDERREQUEST_ORC 
PARTITION(DATE)
SELECT 
COLUMN1, 
COLUMN2, 
COLUMN3,
DATE
FROM ORDERREQUEST_TXT; 

这些是纱线配置

 1. top - 17:37:24 up 50 days, 3:47, 4 users, load average: 15.73, 16.43, 13.52 
 2. top - 17:38:25 up 50 days, 3:48, 2 users, load average: 16.14, 15.19, 12.50 
 3. top - 17:39:26 up 50 days, 3:49, 1 user, load average: 11.89, 12.54, 10.49 

仅供参考: - 我的群集配置

 yarn.scheduler.minimum-allocation-mb=5120 
 yarn.scheduler.maximum-allocation-mb=46080 
 yarn.nodemanager.resource.memory-mb=46080

如何降低纱线利用率?

1 个答案:

答案 0 :(得分:3)

您收到错误,因为群集尚未配置为为每个用户分配最大纱线内存。

请在Yarn configuratins中设置以下属性,以便为每个作业分配33%的最大纱线内存,可根据您的要求进行更改。

yarn.scheduler.capacity.root.default.user-limit-factor=1
yarn.scheduler.capacity.root.default.user-limit-factor=0.33

如果您需要进一步的信息,请参阅以下链接 https://analyticsanvil.wordpress.com/2015/08/16/managing-yarn-memory-with-multiple-hive-users/