映射器在EMR集群中的分布

时间:2016-04-21 10:55:57

标签: amazon-web-services emr

EMR如何在分发映射器时优先考虑核心和任务节点?它甚至重要吗?

示例:示例作业需要5个映射器。核心节点和任务节点可独立处理5个映射器。核心节点是否会获得所有5个映射器,或者任务节点是否会获得所有5个映射器?或者它是混合搭配(基于专有的EMR算法)?

1 个答案:

答案 0 :(得分:1)

对于在GPE或TASK实例上放置映射器,EMR目前没有做任何特别的事情。但是,Hadoop默认会尝试遵循数据局部性,这意味着如果您的映射器正在从HDFS读取,则映射器可能更可能在CORE实例(运行HDFS)上运行,而不是在TASK实例(不运行HDFS)上运行 - 这是目前CORE和TASK实例之间的唯一区别。)