随着群集大小的增加,每个节点同时运行的映射器数量在Elastic MapReduce w / AMI 3.1.0和Hadoop 2.4.0上急剧下降

时间:2014-08-10 13:31:01

标签: hadoop amazon-web-services amazon-ec2 elastic-map-reduce yarn

在一个相关问题(How to set the precise max number of concurrently running tasks per node in Hadoop 2.4.0 on Elastic MapReduce)中,我要求提供与YARN和MR2内存参数同时运行的映射器/缩减器数量相关的公式。事实证明,在Elastic MapReduce上,当我的集群有2到10个c3.2xlarge节点时,那里提到的公式的变化可以正常工作,给我7-9个并发运行每个节点的映射器;但是当c3.2xlarges的数量是20或40时,我得到集群利用不足:每个节点只运行1-4个映射器。由于我的工作是CPU限制的,所以特别糟糕:MR2为我提供了MR1的性能。

为什么会这样?

1 个答案:

答案 0 :(得分:1)

您将受限于NameNode可以提供的内容。在增加Task节点时,您可以并且应该为NameNode指定更大的实例类型。 MR1页面从未针对c3s http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/TaskConfiguration.html

进行更新