Hadoop块大小与拆分对块大小

时间:2016-01-10 10:20:35

标签: hadoop hdfs

我对Hadoop概念有点困惑。

Hadoop Chunk size , Split size and Block size 有什么区别?

提前致谢。

1 个答案:

答案 0 :(得分:4)

块大小&块大小是相同的。 拆分大小可能与 Block / Chunk 大小不同。

Map Reduce 算法不适用于文件的物理块。它适用于逻辑输入拆分。输入拆分取决于记录的写入位置。记录可能跨越两个映射器。

HDFS 的设置方式,它将非常大的文件分解为大块(例如,测量128MB),并将这些块的三个副本存储在群集中的不同节点上。 HDFS没有意识到这些文件的内容。

为了解决这个问题,Hadoop使用存储在文件块中的数据的逻辑表示,称为输入拆分。当 MapReduce 作业客户端计算 输入拆分 时,它会计算出块中第一个完整记录的开始位置以及阻止结束。

如果块中的最后一条记录不完整,则输入拆分包括下一个块的位置信息和完成记录所需数据的字节偏移。

enter image description here

有关详细信息,请查看此article

相关的SE问题:

About Hadoop/HDFS file splitting

Split size vs Block size in Hadoop