在一个相关问题(How to set the precise max number of concurrently running tasks per node in Hadoop 2.4.0 on Elastic MapReduce)中,我要求提供与YARN和MR2内存参数同时运行的映射器/缩减器数量相关的公式。事实证明,在Elastic MapReduce上,当我的集群有2到10个c3.2xlarge节点时,那里提到的公式的变化可以正常工作,给我7-9个并发运行每个节点的映射器;但是当c3.2xlarges的数量是20或40时,我得到集群利用不足:每个节点只运行1-4个映射器。由于我的工作是CPU限制的,所以特别糟糕:MR2为我提供了MR1的性能。
为什么会这样?
答案 0 :(得分:1)
您将受限于NameNode可以提供的内容。在增加Task节点时,您可以并且应该为NameNode指定更大的实例类型。 MR1页面从未针对c3s http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/TaskConfiguration.html
进行更新