我正在使用mapreduce来计算单词,我希望输出文件将按单词的出现进行排序。例如:
one two two three three three four four four four
输出将是:
four 4
three 3
two 2
one 1
我该怎么做?
答案 0 :(得分:1)
这样做的一种方法是添加额外的map-reduce步骤,执行“Secondary Sort”。
HTH
答案 1 :(得分:1)
最简单的方法是:
-reducer "myReducer.py | sort -k 2 -r"
。hadoop dfs -get myWordCountResults/part* ./results/
)复制HDFS中的所有文件后,您可以运行sort -m ./results/part* > sortedOutput.txt