我有一个历史文件,由多个(主题页面)组成,每个页面有14行,我需要从中获取一个ID,然后我计算这个特定文档的出现次数,它出现了多少次在此历史文件中。但是我需要显示出现次数最多的排序输出,然后是TOPIC PAGE ID。
在mapper中我只是使用TOPIC键,并使用IntWritable对每个条目写一个。
然后在Reducer中我总结了一下。
不能使用二级排序,因为我在调用reduce函数后得到每个TOPIC页面的总计数。
输出就像:
主题ID出现
987634 89
678945 87
378956 76