关于 HDFS ,我在他们的网站上阅读了数据复制部分(链接下方)
http://hadoop.apache.org/docs/r1.2.1/hdfs_design.html#Data+Replication
' 文件中除最后一个区块外的所有区块大小相同'
请您告诉我,最后一个街区的大小不一样的原因是什么?
可能是总内存分配可能会在这里发挥作用吗?
但是,如果内存大小不是问题,那么最后一个块的大小是否与文件的其余块大小不同?
如果是的话,请你详细说明一下吗?
非常感谢JIRA为此开发工作的任何链接。
答案 0 :(得分:1)
实际上这根本不是问题。实际上,不确定文件的最后一个块是否可以具有相同的大小。
考虑一个大小为1000 MB的文件,该块为128MB,然后该文件将被拆分为8个块,其中前7个块将是偶数大小,等于128MB。
7个区块的总大小将为896MB(7 * 128MB),因此剩余大小将为104MB(1000-896)。因此,最后一个块的实际大小为104 MB,其他7个块为128 MB。
namenode将为存储在HDFS上的文件的每个块分配数据块。它不会考虑大小小于数据块大小的块。
HDFS旨在将大块数据存储在相同大小的数据块中,以便可以通过名称节点轻松计算和维护数据节点上可用的数据块。