在hadoop中运行并行映射作业

时间:2015-01-12 10:03:38

标签: hadoop

我有一个问题。

假设我在HDFS中有一个文件,并且在读取文件时将其转换为4个输入分割。现在对于所有4个输入分割,将有4个地图任务,所以我的问题是这4个地图任务可以由4个任务跟踪器并行运行,或者它可以通过少于4个任务跟踪器运行,如果那些任务跟踪器有插槽运行更多而不是一项任务。

由于 PRASHANT

1 个答案:

答案 0 :(得分:0)

如果你有4个输入分割,你将有4个地图任务。这些任务将被安排执行。如果您有MRv1,那么他们将安排到任务工具。如果只有1个任务跟踪器只有1个映射槽,则所有4个任务将按顺序执行。但是默认情况下,如果可能,框架将尝试并行启动它们。如果您有MRv2,那么YARN将负责安排这些任务,并且调度将取决于运行YARN NodeManagers的计算机上可用的内存量,但默认情况下它将尝试并行运行它们

因此,一般来说,框架将尽力并行启动所有map任务。但如果发生它没有足够的资源(MRv1中没有足够的免费地图插槽或MRv2中没有足够的可用内存),它们将以较少的并行性运行甚至是顺序运行(甚至停留在"等待& #34;陈述你是否完全没有任何资源