地图任务数和拆分大小

时间:2013-11-27 16:57:58

标签: python hadoop

我正在尝试做什么

我是hadoop的新手,我尝试使用不同数量的映射器和缩减器多次执行MapReduce,并比较执行时间。文件大小约为1GB,我没有指定分割大小,所以它应该是64MB。我正在使用4芯机器。

我做了什么

mapper和reducer是用python编写的。所以,我正在使用hadoop流媒体。我使用'-D mapred.map.tasks = 1 -D mapred.reduce.tasks = 1'

指定了地图任务的数量并减少了任务

问题

因为我指定使用1个map任务和1个reduce任务,所以我希望只看到一次尝试,但实际上我有38个map尝试,1个reduce任务。我阅读了类似于这个问题的教程和SO问题,有些人说默认的地图任务是2,但是我得到了38个地图任务。我还读到mapred.map.tasks只建议地图任务的数量和数量是分割大小的数量。但是,1GB除以64MB大约是17,所以我仍然不明白为什么创建了38个地图任务。

1)如果我只想使用1个map任务,我是否必须将输入分割大小设置为1GB ??

2)假设我成功指定我只想使用2个地图任务,它是否使用2个核心?并且每个核心都有1个映射任务??

2 个答案:

答案 0 :(得分:1)

映射器的数量实际上由您正在使用的 InputFormat 控制。话虽如此,根据您正在处理的数据类型,InputFormat可能会有所不同。通常,对于存储为HDFS FileInputFormat或子类中的文件的数据,使用的工作原理是MR split = HDFS块。然而,这并非总是如此。假设您正在处理平面二进制文件。在这种情况下,没有分隔符(\ n或其他)来表示分割边界。在这种情况下你会做什么?因此,上述原则并不总是有效。

考虑另一种情况,即您正在处理存储在数据库中的数据,而不是处理HDFS中的数据。在我们谈论DB时,会出现什么情况,因为没有64MB块大小的概念?

框架尽力以尽可能高效的方式执行计算,这可能涉及创建您指定/期望的更少/更多数量的映射器。因此,为了了解如何创建精确的映射器,您需要查看您在工作中使用的InputFormat。 getSplits()方法准确无误。

  1. 如果我只想使用1个地图任务,我是否必须将输入分割大小设置为1GB ??

    您可以覆盖InputFormat的 isSplitable(FileSystem,Path)方法,以确保输入文件不会被拆分并由单个映射器整体处理。

  2. 假设我成功指定我只想使用2个地图任务,它是否使用2个核心?并且每个核心都有1个映射任务??

    这取决于可用性。映射器可以同时在多个核上运行。并且单个核心可以顺序运行多个映射器。

答案 1 :(得分:0)

问题2的一些附加组件:在节点上运行map / reduce任务的并行性是可控的。可以通过mapreduce.tasktracker.map.tasks.maximummapreduce.tasktracker.reduce.tasks.maximum设置任务跟踪器同时运行的map / reduce任务的最大数量。 Defaults for both parameters是2.对于4核节点mapreduce.tasktracker.map.tasks.maximum应该增加到至少4,即使用每个核心。 2 for max-reduce-tasks预计可以。 顺便说一句,找出max map / reduce任务的最佳值是非常重要的,因为它取决于集群上的作业并行度,作业的映射器/缩减器(-s)是计算密集型还是计算密集型,等