hadoop - 何时在hadoop mapreduce作业上以交互方式增加/减少节点数是个好主意？

克里斯托弗史密斯回答了这个问题，他允许我在这里发帖。

一如既往......＆＃34;它取决于＆＃34;。有一件事你几乎总是可以计算 on：稍后添加节点不会像你那样帮助你来自get go的节点。

创建Hadoop作业时，它会分成任务。这些任务是有效的＆＃34;工作原子＆＃34;。 Hadoop让你调整#of 在创建作业期间映射器和＃reducer任务，但是一旦完成作业创建，它是静态的。任务分配到＆＃34;插槽＆＃34;。传统上，每个节点配置为具有一定数量的映射槽任务，以及减少任务的一定数量的插槽，但你可以调整一下。一些较新版本的Hadoop不需要您将插槽指定为用于映射或减少任务。无论如何， JobTracker定期将任务分配给插槽。因为这样做了动态地，新的节点上线可以加快a的处理速度通过提供更多的插槽来执行任务。

这为理解添加新节点的现实奠定了基础。显然，阿姆达尔的法律问题是有更多的插槽而不是待完成的任务很少（如果你有推测执行启用后，它确实有所帮助，因为Hadoop将安排相同的任务在许多不同的节点上运行，以便慢节点的任务可以如果有备用资源，则由更快的节点完成）。所以，如果你没有使用许多map或reduce任务定义你的工作，增加更多节点并没有多大帮助。当然，每项任务都要强加一些开销，所以你也不想疯狂。这就是我的原因建议任务规模的准则应该是＆＃34;需要的东西〜2-5分钟执行＆＃34;。

当然，当您动态添加节点时，它们会有另一个节点缺点：他们没有任何本地数据。显然，如果你在 EMR管道的开始，没有一个节点有数据，所以无所谓，但如果你有一个由许多工作组成的EMR管道，随着早期工作将结果持续到HDFS，你会得到巨大的成功性能提升，因为JobTracker将有利于塑造和分配任务，以便节点具有可爱的数据位置（这是一个整个MapReduce设计的核心技巧，以最大限度地提高性能）。上减速器方面，数据来自其他地图任务，因此动态与其他节点相比，添加的节点确实没有任何劣势。

因此，原则上，动态添加新节点实际上不太可能帮助处理从HDFS读取的IO绑定映射任务。

...除

Hadoop有各种各样的秘籍可供优化性能。一旦它开始传输地图输出数据地图任务完成之前的reducer / reducer启动。这个显然是对于映射器的工作的关键优化生成大量数据。你可以在Hadoop开始时进行调整转移。无论如何，这意味着新的节点可能是处于劣势，因为现有节点可能已经具有此类节点巨大的数据优势。显然，映射器的输出越多传播后，缺点就越大。

这是怎么回事。但在实践中，很多Hadoop 作业让映射器以CPU密集的方式处理大量数据，但是输出相对较少的数据给减速器（或者它们可能会向减速器发送大量数据，但减速器仍然存在非常简单，所以不受CPU约束。工作通常很少（有时甚至是0）reducer任务，所以即使是额外的节点也可以提供帮助你已经有一个减少插槽可用于每个未完成的减少任务，新节点无法提供帮助。新节点也不成比例地帮助了由于显而易见的原因，CPU绑定工作，因为趋于地图任务不仅仅是减少任务，而是人们通常会看到的任务胜利。如果您的映射器受I / O限制并从中提取数据在网络中，添加新节点显然会增加聚合带宽集群，所以它有帮助，但如果您的地图任务是I / O绑定阅读HDFS，最好的事情就是拥有更多的初始节点和数据已经遍布HDFS。看到减速器获得I / O并不罕见因为结构不合理的工作而受约束，在这种情况下增加更多节点可以提供很多帮助，因为它会再次分割带宽。

当然还有一个警告：一个非常小的集群， Reducer可以从运行的映射器中读取大量数据本地节点，并添加更多节点将更多的数据转移到拉过慢得多的网络。你也可以有案例 Reducer花费大部分时间来复用数据处理从所有映射器发送数据（虽然它是可调的孔）。

如果您提出这样的问题，我强烈建议您进行性能分析使用亚马逊提供的KarmaSphere等工作。它将为您提供更好的图片，说明您的瓶颈在哪里以及在哪里是提高绩效的最佳策略。

何时在hadoop mapreduce作业上以交互方式增加/减少节点数是个好主意？

1 个答案: