我正在对2个节点Hadoop 2.2.0群集上运行的M / R作业进行一些测试。我想了解的一件事是在本地模式下运行作业(不是由ResourceManager管理)并在YARN上运行它的性能考虑因素。我做的测试显示,当通过LocalJobRunner执行作业时,它比通过YARN管理作业要快得多。在设置群集时,我按照此处描述的步骤进行了http://raseshmori.wordpress.com/2012/10/14/install-hadoop-nextgen-yarn-multi-node-cluster/,也许有一些配置指南忘了提及?
谢谢!
答案 0 :(得分:0)
您可以运行LocalJobRunner进行测试和小例子。当您需要处理大量使用Hadoop的数据时,您可以使用群集(a.k.a“大数据”)。
当你运行一个小例子时,分布式运行事务的开销压倒了并行化的好处
答案 1 :(得分:0)