我正在使用hadoop中的四节点多群集。我已经按照以下方式对块大小进行了一系列实验,并按如下方式计算了运行时间。
所有这些都是在20GB输入文件上执行的。 64MB - 32分钟, 128MB - 19分钟, 256MB - 15分钟, 1GB - 12.5分钟。
我是否应该继续进行2GB的块大小?如果在90GB文件上执行类似操作,也请解释最佳块大小。谢谢!
答案 0 :(得分:0)
您应该使用2Gb进行测试并比较结果。
只有您考虑下一个:更大的块大小可以最大限度地减少创建映射任务的开销,但对于非本地任务,Hadoop需要将所有块传输到远程节点(此处为网络带宽限制),然后是更小的块大小在这里表现得更好。
在您的情况下,4个节点(我假设通过局域网中的交换机或路由器连接),2Gb不是问题。但在其他环境中,答案并非如此,这种错误率更高。