调用MapReduce两次

时间:2017-04-03 17:11:00

标签: java hadoop

我在这里关注字数统计教程:https://hadoop.apache.org/docs/stable/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html#Example:_WordCount_v1.0

我可以用这种格式生成单词出现的频率:

word frequency
1    1
2    2
3    3
4    1
5    2
6    1

但是,现在我需要将频率分组如下:

frequency   count
1           3
2           2
3           1

基本上,对于每个频率,找出出现的频率。我如何修改代码来显示这个?我觉得我必须修改IntSumReducer,但我从未真正使用过Hadoop。

1 个答案:

答案 0 :(得分:1)

除了从示例中修改SumReducer之外,您应该完全创建一个新的作业,它可以用于字数统计程序的输出。

您的Mapper需要输出频率作为键,输出整数1作为值。您可以编写自己的减速器,或者只使用与示例中使用的相同的减速器。