我可以用这种格式生成单词出现的频率:
word frequency
1 1
2 2
3 3
4 1
5 2
6 1
但是,现在我需要将频率分组如下:
frequency count
1 3
2 2
3 1
基本上,对于每个频率,找出出现的频率。我如何修改代码来显示这个?我觉得我必须修改IntSumReducer
,但我从未真正使用过Hadoop。
答案 0 :(得分:1)
除了从示例中修改SumReducer之外,您应该完全创建一个新的作业,它可以用于字数统计程序的输出。
您的Mapper需要输出频率作为键,输出整数1作为值。您可以编写自己的减速器,或者只使用与示例中使用的相同的减速器。