Hadoop MapReduce:返回文本文件中单词的排序列表

时间:2012-11-03 10:21:44

标签: sorting text hadoop mapreduce

所以我的任务是返回一个包含在文本文件中的所有单词的alpahbetically排序列表,同时保留重复。

{成为或不成为} - →{be be not or to to}

我的想法是把每个单词作为关键和价值。这样,因为hadoop对键进行排序,它们将自动按字母顺序排序。在Reduce阶段,我只需将具有相同键的所有单词(基本上相同的单词)附加到单个Text值。

   public class WordSort {

   public static class Map extends Mapper<LongWritable, Text, Text, Text> {

   private Text word = new Text();

   public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
      String line = value.toString();
      StringTokenizer tokenizer = new StringTokenizer(line);
      while (tokenizer.hasMoreTokens()) {
        word.set(tokenizer.nextToken());
        // transform to lower case
        String lower = word.toString().toLowerCase();
        context.write(new Text(lower), new Text(lower));
      }
    }
  }

  public static class Reduce extends Reducer<Text, Text, Text, Text> {

  public void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException {
      String result = "";
      for (Text value : values){
         res += value.toString() + " ";
      }
      context.write(key, new Text(result));
    }
  }

但是我的问题是,如何在输出文件中返回值?目前我有这个:

be be be 
not not 
or or
to to to

所以在每一行中我首先得到键然后是值,但我只想返回值以便得到这个:

be be
not 
or 
to to

这是可能的,还是只需从每个单词的值中删除一个条目?

2 个答案:

答案 0 :(得分:0)

免责声明:我不是Hadoop用户,但我使用CouchDB进行了很多Map / Reduce。

如果您只需要按键,为什么不发出空值?

此外,听起来你根本不想减少它们,因为你想要在每次出现时获得一个密钥。

答案 1 :(得分:0)

尝试使用Hadoop中的MaxTemperature示例 - 权威指南和以下代码

context.write(null, new Text(result));