我有一个非常简单的用例... 基本上我有一个边缘列表,我试图将其转换为邻接列表.. 基本上
src target
a b
a c
b d
b e
等等.. 我想要建立的是
a [b,c]
b [d,e]
.. and so on..
但是时不时地......我打了一个超级节点......它有数百万个边缘..
因此,仅仅关注节点id会导致MR执行不良,因为这个straggler reducer ..
我一直在努力了解分区器..但我迷失了如何在这里使用它?
我如何解决这个落后者问题? 感谢
答案 0 :(得分:0)
我不明白你的目的是什么。您要生成单个输出文件的内容?或者你想加快速度?
如果您想获得单个输出文件,则可以将reducer的数量设置为1。
或者您可以使用srcID作为键和targetID作为映射的值,以便具有相同srcID的k-v对可以组合在同一个reducer中。