Hadoop总订单分区

时间:2018-04-29 03:47:00

标签: apache hadoop hadoop-partitioning

为什么hadoop中的总订单分区总数?我们需要采取哪种方案来进行总订单分区?我的理解是在多个reducer之后,每个reducer结果将按键排序。那么为什么我们需要进行总订单分区。如果您可以共享任何图形代表,那将是很棒的。例子?

1 个答案:

答案 0 :(得分:1)

总订单分区将按键在所有减速器上按键排序。这允许您组合多个Reducer的输出并仍然获得排序的输出。以下简单示例:

没有总订单分区

reducer 1's output: 
(a,val_a)
(m,val_m)
(x,val_x)

reducer 2's output: 
(b,val_b)
(c,val_c)

如果组合,输出不再按键排序。

(a,val_a)
(m,val_m)
(x,val_x)
(b,val_b)
(c,val_c)

使用总订单分区

reducer 1's output: 
(a,val_a)
(b,val_b)
(c,val_c)

reducer 2's output: 
(m,val_m)
(x,val_x)

如果合并,输出仍按键排序。

(a,val_a)
(b,val_b)
(c,val_c)
(m,val_m)
(x,val_x)