为什么hadoop中的总订单分区总数?我们需要采取哪种方案来进行总订单分区?我的理解是在多个reducer之后,每个reducer结果将按键排序。那么为什么我们需要进行总订单分区。如果您可以共享任何图形代表,那将是很棒的。例子?
答案 0 :(得分:1)
总订单分区将按键在所有减速器上按键排序。这允许您组合多个Reducer的输出并仍然获得排序的输出。以下简单示例:
没有总订单分区
reducer 1's output:
(a,val_a)
(m,val_m)
(x,val_x)
reducer 2's output:
(b,val_b)
(c,val_c)
如果组合,输出不再按键排序。
(a,val_a)
(m,val_m)
(x,val_x)
(b,val_b)
(c,val_c)
使用总订单分区
reducer 1's output:
(a,val_a)
(b,val_b)
(c,val_c)
reducer 2's output:
(m,val_m)
(x,val_x)
如果合并,输出仍按键排序。
(a,val_a)
(b,val_b)
(c,val_c)
(m,val_m)
(x,val_x)