字数中的hadoop性能差 - 调度问题

时间:2013-12-25 00:53:02

标签: hadoop mapreduce yarn

我在ec2上使用m1.large机器运行16节点hadoop集群。由于hadoop正在进行的愚蠢调度,我面临性能问题。我正在使用hadoop-2.2.0和纱线。

确切的问题如下:

我正在群集上运行wordcount程序。有4GB的整个数据需要在wordcount上完成。我目前正在尝试使用4个减速器。不幸的是,所有4台减速机都安排在同一台机器上,这确实使性能很差。有什么方法可以避免这种情况。是否有一些调度策略可以更好地平衡reduce任务。

PS:我理解hadoop不是为了高性能,但我必须对某些地图缩减程序进行基准测试,不良调度的效果将极大地影响我的基准测试。

由于

0 个答案:

没有答案