关于Hadoop / HDFS文件拆分

时间:2012-02-13 09:27:26

标签: hadoop mapreduce

想要确认以下内容。请验证这是否正确: 1.根据我的理解,当我们将文件复制到HDFS时,文件(假设其大小> 64MB = HDFS块大小)被分成多个块并且每个块存储在不同的数据节点上。

  1. 将文件复制到HDFS时文件内容已经拆分为块,并且在运行map作业时不会发生文件拆分。映射任务的调度方式只能在每个最大块上运行。大小为64 MB,具有数据位置(即映射任务在包含数据/块的节点上运行)

  2. 如果文件被压缩(gzip),文件分割也会发生,但MR确保每个文件只由一个映射器处理,即MR将收集位于其他数据节点的所有gzip文件块,并将它们全部提供给单一的映射器。

  3. 如果我们定义isSplitable()以返回false,则会发生与上述相同的事情,即文件的所有块将由在一台机器上运行的一个映射器处理。 MR将从不同的数据节点读取文件的所有块,并将它们提供给单个映射器。

3 个答案:

答案 0 :(得分:36)

大卫的回答几乎击中了它的头,我只是在这里详细阐述。

这里有两个不同的概念,每个概念都由hadoop框架中的不同实体处理

首先 -

1)将文件分成块 - 当文件写入HDFS时,HDFS将文件分成块并负责其复制。这一次(大部分)完成,然后可用于群集上运行的所有MR作业。这是群集范围的配置

其次 -

2)将文件拆分为输入拆分 - 当输入路径传递到MR作业时,MR作业使用路径以及配置的输入格式来划分输入中指定的文件路径分裂,每个分裂由地图任务处理。每次执行作业时,输入分割的计算都由输入格式完成

现在,一旦我们掌握了这一点,我们就可以理解isSplitable()方法属于第二类。

要真正解决这个问题,请查看HDFS写入数据流(概念1)

HDFS Write Data Flow

图中的第二点可能是拆分发生的地方,请注意这与运行MR作业无关

现在看一下MR作业的执行步骤

MR

这里的第一步是通过为作业配置的inputformat计算输入拆分。

你的很多困惑源于你正在哄骗这两个概念,我希望这会使它更清晰。

答案 1 :(得分:14)

您的理解并不理想。 我要指出的是,有两个几乎独立的过程:将文件拆分为HDFS块,并拆分文件以供不同的映射器处理。
HDFS根据定义的块大小将文件拆分为块。
每种输入格式都有自己的逻辑,如何将文件拆分成不同的映射器进行独立处理。 FileInputFormat的默认逻辑是按HDFS块拆分文件。您可以实现任何其他逻辑 压缩通常是分裂的敌人,因此我们采用块压缩技术来分割压缩数据。这意味着文件(块)的每个逻辑部分都是独立压缩的。

答案 2 :(得分:1)

是的,当文件被复制到HDFS时,文件内容被分成块。块大小是可配置的,如果它是128 MB,则整个128 MB将是一个块,而不是2个64 MB的块。此外,文件的每个块都不必存储在单独的datanode上。 datanode可能具有特定文件的多个块。根据复制因子,特定块可能存在于多个数据节点中。