Hadoop YARN - LocalJobRunner与集群部署作业的性能

时间:2014-06-12 09:43:07

标签: hadoop yarn hadoop2

我正在对2个节点Hadoop 2.2.0群集上运行的M / R作业进行一些测试。我想了解的一件事是在本地模式下运行作业(不是由ResourceManager管理)并在YARN上运行它的性能考虑因素。我做的测试显示,当通过LocalJobRunner执行作业时,它比通过YARN管理作业要快得多。在设置群集时,我按照此处描述的步骤进行了http://raseshmori.wordpress.com/2012/10/14/install-hadoop-nextgen-yarn-multi-node-cluster/,也许有一些配置指南忘了提及?

谢谢!

2 个答案:

答案 0 :(得分:0)

您可以运行LocalJobRunner进行测试和小例子。当您需要处理大量使用Hadoop的数据时,您可以使用群集(a.k.a“大数据”)。

当你运行一个小例子时,分布式运行事务的开销压倒了并行化的好处

答案 1 :(得分:0)

Arnon是对的。我发现在我的一个用例中,使用LocalJobRunner运行比使用yarn快得多。使用LocalJobRunner运行将在进程内和本地计算机中运行映射进程。作业未提交给HDFS集群。因此,映射任务不会安排在多台计算机中。因此,使用LocalJobRunner将用于单元测试代码。而已。出于所有其他实际目的,请使用纱线。