Question

我有一个非常简单的用例... 基本上我有一个边缘列表，我试图将其转换为邻接列表.. 基本上

src target
a     b
a    c
b    d
b    e

等等.. 我想要建立的是

a [b,c]
b [d,e]
.. and so on..

但是时不时地......我打了一个超级节点......它有数百万个边缘..

因此，仅仅关注节点id会导致MR执行不良，因为这个straggler reducer ..

我一直在努力了解分区器..但我迷失了如何在这里使用它？

我如何解决这个落后者问题？感谢

Answer 1

我不明白你的目的是什么。您要生成单个输出文件的内容？或者你想加快速度？

如果您想获得单个输出文件，则可以将reducer的数量设置为1。

或者您可以使用srcID作为键和targetID作为映射的值，以便具有相同srcID的k-v对可以组合在同一个reducer中。