我尝试将我的文件合并到HDFS上,并将其合并到一个文件中。因此,HDFS的文件编号比以前小,但大小相同。所以,在这种情况下,我得到了更快的mapreduce时间,因为我认为这个过程会减少容器(map task或reduce task)。
所以,我想问一下,如何正确设置块大小,以获得更快的mapreduce?我应该设置大于默认值(最小化容器号)吗?
非常感谢....
答案 0 :(得分:0)
您知道吗,为什么hadoop具有强大而快速的计算能力?因为它将一项大工作分成许多小工作。这就是hadoop的精神。
并且有很多机制来协调它的工作流程,也许调整块大小无法达到你的目标。
您可以设置参数“dfs.block.size”(以字节为单位)来调整块大小。