我正试图在Hadoop
上对EC2
进行基准测试。我正在使用带有1个Master和5个slave的1GB文件。当我改变dfs.blocksize
之类的1m, 64m, 128m, 500m.
时,我期待128m的最佳性能,因为文件大小为1GB,并且有5个从属。但令我惊讶的是,无论块大小如何,所用时间或多或少都在同一范围内。我如何实现这种奇怪的表现?
答案 0 :(得分:0)
首先考虑最有可能解释的事情
mapred.min.split.size
和mapred.max.split.size