如何应对hadoop中的落后减速器

时间:2013-11-15 08:45:09

标签: hadoop

我有一个非常简单的用例... 基本上我有一个边缘列表,我试图将其转换为邻接列表.. 基本上

src target
a     b
a    c
b    d
b    e

等等.. 我想要建立的是

a [b,c]
b [d,e]
.. and so on..

但是时不时地......我打了一个超级节点......它有数百万个边缘..

因此,仅仅关注节点id会导致MR执行不良,因为这个straggler reducer ..

我一直在努力了解分区器..但我迷失了如何在这里使用它?

我如何解决这个落后者问题? 感谢

1 个答案:

答案 0 :(得分:0)

我不明白你的目的是什么。您要生成单个输出文件的内容?或者你想加快速度?

如果您想获得单个输出文件,则可以将reducer的数量设置为1。

或者您可以使用srcID作为键和targetID作为映射的值,以便具有相同srcID的k-v对可以组合在同一个reducer中。