标签: hadoop mapreduce bigdata partitioner
您好我想学习如何在hadoop.i中按值排序单词计数。知道hadoop对排序键的排序,而不是值。
我知道要对值进行排序我们必须有分区器,分组比较器和排序比较器
但我对将这些概念一起应用以按值排序单词计数感到困惑。
我们是否需要另一个map reduce工作来实现相同的功能,或者需要一个组合器来计算出现次数然后在这里排序并将其发送到reducer?
任何人都可以解释如何按值排序单词计数示例吗?
答案 0 :(得分:10)
你需要有第二个mapreduce工作。除非您总结计算总数(第一个MR作业),您如何看待按值排序(单词的计数)?从逻辑上讲是不可能的。
答案 1 :(得分:7)
这称为二级排序。有关详细信息,请参阅this和this。