在hadoop中,数据被分成64mb或128mb块。我们假设我有一个70mb的文件。它是否分为64mb和6mb两个块。如果是这样,第二个块只占用6mb,该块中的另一个空间是浪费还是被另一个块占用?
答案 0 :(得分:1)
在hadoop块大小可以由通过dfs.blocksize属性写入hdfs的应用程序选择:
http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml
对于它应该是64还是128mb没有限制,但是当前的hadoop版本默认为128mb。
可以在不同的文件上设置不同的块大小。
如果文件的大小小于块大小,则不会浪费空间。 但是,不建议使用大量小文件。有关此问题以及如何解决此问题的更多信息,请访问:https://developer.yahoo.com/blogs/hadoop/hadoop-archive-file-compaction-hdfs-461.html
答案 1 :(得分:1)
没有浪费任何空间。如果第二个块占用6mb而不是剩余的56mb空间则为其他文件分配任何内容。