估计伪分布式节点上的Hadoop可伸缩性?

时间:2012-02-13 16:11:25

标签: performance hadoop scalability

是否有任何工具,软件包或方法可用于仅使用使用伪分布式体系结构的单个计算机来估计/模拟Hadoop的可伸缩性性能?这样的系统需要基于在模拟中不相互干扰的作业(例如,具有阻塞的I / O)来进行准确的估计。

在我看来,这是如何工作的,我将按顺序运行所有map / reduce作业,并使用一些指标来估计系统的缩放程度(例如,采用运行时间最长的地图作业并估计运行时间会受到瓶颈)。

此外,我有多个map / reduce作业,这些作业被链接在一起形成输出。

1 个答案:

答案 0 :(得分:0)

我认为这在很大程度上取决于你工作的性质。让我们试着举几个例子:
1.您的作业具有大量输入格式和映射器处理,传递给reducer的数据最少。在这种情况下,我估计伪分布式集群将真实地反映真实的集群性能(每个插槽),您可以假设5个节点集群将具有大约x5的性能。我建议提供足够的数据,工作时间至少是工作启动时间的5-10倍。如果您有足够的拆分以确保处理期间的数据位置,则此估计会更好。
如果您计划拥有大量相对较小的文件 - 在测试中放置足够的文件,以模拟每个任务的开销。 2.您对Hadoop分布式排序功能的重新干预(改组)。它在一个节点和真实集群中的性能可能完全不同,因素难以估计。
我可以总结一下mapper的吞吐量,在某种程度上,你可以从上面估算每个插槽的MB /秒的减速器。真正的集群可能没有更好的每插槽性能。