hadoop中的部分排序,总排序和次要排序之间的区别

时间:2015-10-23 08:40:35

标签: hadoop mapreduce

请告诉我hadoop中部分排序,总排序和次要排序之间的区别

2 个答案:

答案 0 :(得分:2)

部分排序: -

reducer输出将是很多文件,每个文件都根据密钥在自身内进行排序。

总排序

reducer输出将是一个文件,其所有输出都根据键进行排序。

次要排序

在这种情况下,我们将能够控制值的顺序以及键。这就是可以对两个或多个字段值进行排序。

答案 1 :(得分:0)

部分排序:

N个Mappers只会生成N个文件。 N个减速器将单独对这些文件进行排序。

总排序

特定Key的所有键值对都将到达特定的reducer。这将通过Mapper级别的分区进行。 Mapper级别的组合器将充当Semi reducer并将特定键的值发送到Reducer。

reducer输出将是一个文件,其所有输出都根据键进行排序。

二级排序

用于定义地图输出键的排序方式。它适用于Mapper级别。在这种情况下,我们将能够控制值的顺序以及键。即可以对两个或多个字段值进行排序。

查看article1article2以及article3