为什么3节点集群的性能比单节点集群差?

时间:2018-01-24 13:58:33

标签: hadoop mapreduce distributed-computing

我用多个文件运行了多个测试。 (最大的文件是83,7 MB)

我知道网络带来了一些开销,但我期待更好的结果,因为我认为使用分布式系统的目的是减少响应时间。

我使用/ usr / bin / time测量性能。这有什么问题?

1 个答案:

答案 0 :(得分:1)

如果您的mapreduce密钥被发送到群集中的单个节点,那么您在单个节点上的性能提升不会增加数据混洗的网络开销

如果您没有为您的硬件调整mapreduce YARN容器尺寸,那么您会发现性能不佳。

如果您要存储大量低于HDFS块大小的文件(128 MB,如果您已经保留默认值),正如您所提到的那样,那么您就会浪费资源。此外,如果您正在处理单个大型文件,如ZIP,或其他"不可拆分"文件格式,您在单个映射器节点上没有任何好处。

  

我用/ usr / bin / time

测量性能

MapReduce作业输出和历史记录服务器都会告诉您作业及其任务实际需要多长时间