因此,我在Hadoop群集上使用WordCount运行了50 MB的数据。我在5个不同的群集大小(单节点群集最多5个节点群集)上运行测试。关键是执行时间没有太大变化。每次运行仅相差1-2分钟。不是将节点添加到群集中会导致更多的可用资源并使作业运行更快?
我希望每添加一个节点,执行时间都会更快,但是结果显示出我却不是这样。
我使用的节点具有2 GB的RAM和2个核心。 我没有更改有关yarn-site.xml上的容器和mapred-site.xml上的map / reducelocation.mb的任何内容。
答案 0 :(得分:2)
您需要使用大量数据进行测试。 YARN将为每个HDFS数据块分配一个映射容器。默认的HDFS块大小通常为64Mb,因此也许您的测试文件仅使用一个HDFS块。 容器是YARN将分配给节点的最小计算量。在最坏的情况下,对于测试阶段,它只需要一个容器即可,而在还原阶段则需要另一个容器。通常只在一个节点中容纳2个容器,因此添加更多节点并不会提高速度。