Apache Hadoop(大数据)

时间:2015-01-22 01:13:40

标签: hadoop hdfs

在hadoop中,数据被分成64mb或128mb块。我们假设我有一个70mb的文件。它是否分为64mb和6mb两个块。如果是这样,第二个块只占用6mb,该块中的另一个空间是浪费还是被另一个块占用?

2 个答案:

答案 0 :(得分:1)

在hadoop块大小可以由通过dfs.blocksize属性写入hdfs的应用程序选择:

http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml

对于它应该是64还是128mb没有限制,但是当前的hadoop版本默认为128mb。

可以在不同的文件上设置不同的块大小。

如果文件的大小小于块大小,则不会浪费空间。 但是,不建议使用大量小文件。有关此问题以及如何解决此问题的更多信息,请访问:https://developer.yahoo.com/blogs/hadoop/hadoop-archive-file-compaction-hdfs-461.html

答案 1 :(得分:1)

没有浪费任何空间。如果第二个块占用6mb而不是剩余的56mb空间则为其他文件分配任何内容。