文本中的常用词

时间:2014-01-24 12:30:44

标签: java hadoop

我试图使用Hadoop找出文本中最常见的单词。 Hadoop是一个框架,允许跨计算机集群分布式处理大型数据集。

我知道这可以通过使用Unix命令轻松完成:job: sort -n -k2 txtname | tail。但这并不适用于大型数据集。所以我试图解决问题,然后结合结果。

这是我的WordCount课程:

    import java.util.Arrays;
    import org.apache.commons.lang.StringUtils;
    import org.apache.hadoop.conf.Configuration;
    import org.apache.hadoop.fs.Path;
    import org.apache.hadoop.io.IntWritable;
    import org.apache.hadoop.io.Text;
    import org.apache.hadoop.mapreduce.Job;
    import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
    import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

    public class WordCount {
      public static void runJob(String[] input, String output) throws Exception {
        Configuration conf = new Configuration();
        Job job = new Job(conf);
        job.setJarByClass(WordCount.class);

        job.setMapperClass(TokenizerMapper.class);
        job.setReducerClass(IntSumReducer.class);
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);

        Path outputPath = new Path(output);
        FileInputFormat.setInputPaths(job, StringUtils.join(input, ","));
        FileOutputFormat.setOutputPath(job, outputPath);
        outputPath.getFileSystem(conf).delete(outputPath,true);
        job.waitForCompletion(true);
      }

      public static void main(String[] args) throws Exception {
        runJob(Arrays.copyOfRange(args, 0, args.length-1), args[args.length-1]);
      }
    }

据我所知,我需要另外完成一项工作,与字数统计的map reduce类并行工作。

这是我的TokenizerMapper课程:

    import java.io.IOException;
    import java.util.StringTokenizer;
    import org.apache.hadoop.io.IntWritable;
    import org.apache.hadoop.io.Text;
    import org.apache.hadoop.mapreduce.Mapper;

    public class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable> { 
      private final IntWritable one = new IntWritable(1);
      private Text data = new Text();

      public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
        StringTokenizer itr = new StringTokenizer(value.toString(), "-- \t\n\r\f,.:;?![]'\"");

        while (itr.hasMoreTokens())  {
          data.set(itr.nextToken().toLowerCase());
          context.write(data, one);
        }
      }
    }

这是我的IntSumReducer课程:

    import java.io.IOException;
    import java.util.Iterator;
    import org.apache.hadoop.io.IntWritable;
    import org.apache.hadoop.io.Text;
    import org.apache.hadoop.mapreduce.Reducer;

    public class IntSumReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
      private IntWritable result = new IntWritable();
      public void reduce(Text key, Iterable<IntWritable> values, Context context)

      throws IOException, InterruptedException {
        int sum = 0;

        for (IntWritable value : values) {
          // TODO: complete code here
          sum+=value.get();
        }

        result.set(sum);

        // TODO: complete code here

        if (sum>3) {
          context.write(key,result);
        }
      }
    }

我需要做的是定义另一个地图并减少与当前地图并行工作的类。将出现最常出现的单词,这是我目前为减少类所拥有的:

import java.io.IOException;
import java.util.Iterator;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.Reducer.Context;

public class reducer2 extends Reducer<Text, IntWritable, Text, IntWritable> {
  int max_sum =0;
  Text max_occured_key = new Text();

  private IntWritable result = new IntWritable();

  public void reduce(Text key, Iterable<IntWritable> values, Context context)

  throws IOException, InterruptedException {
    int sum = 0;

    for (IntWritable value : values) {
      // TODO: complete code here
      sum+=value.get();
    }

    if (sum >max_sum) {
      max_sum = sum;
      max_occured_key.set(key);
    }

    context.write(max_occured_key, new IntWritable(max_sum));

    //result.set(sum);

    // TODO: complete code here

    /*
    if (sum>3) {
      context.write(key,result);
    }
    */
  }

  protected void cleanup(Context context) throws IOException, InterruptedException {
    context.write(max_occured_key, new IntWritable(max_sum));
  }
}

mapper2的代码:

import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Mapper.Context;

public class mapper2 {
  private final IntWritable one = new IntWritable(1);
  private Text data = new Text();

  public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
    StringTokenizer itr = new StringTokenizer(value.toString(), "-- \t\n\r\f,.:;?![]'\"");
    int count =0;

    while (itr.hasMoreTokens()) {    
      //data.set(itr.nextToken().toLowerCase());          
      context.write(data, one);
    }
  }
}

我还编辑了WordCount类,这样两个作业可以同时运行:

import java.util.Arrays;
import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCount {
  public static void runJob(String[] input, String output) throws Exception {
    Configuration conf = new Configuration();
    Job job = new Job(conf);
    job.setJarByClass(WordCount.class);

    job.setMapperClass(TokenizerMapper.class);
    job.setReducerClass(IntSumReducer.class);
    job.setMapOutputKeyClass(Text.class);
    job.setMapOutputValueClass(IntWritable.class);

    Path outputPath = new Path(output);
    FileInputFormat.setInputPaths(job, StringUtils.join(input, ","));
    FileOutputFormat.setOutputPath(job, outputPath);
    outputPath.getFileSystem(conf).delete(outputPath,true);
    job.waitForCompletion(true);

    Job job2 = new Job(conf);
    job2.setJarByClass(WordCount.class);

    job2.setMapperClass(TokenizerMapper.class);
    job2.setReducerClass(reducer2.class);
    job2.setMapOutputKeyClass(Text.class);
    job2.setMapOutputValueClass(IntWritable.class);

    Path outputPath2 = new Path(output);
    FileInputFormat.setInputPaths(job, StringUtils.join(input, ","));
    FileOutputFormat.setOutputPath(job, outputPath);
    outputPath.getFileSystem(conf).delete(outputPath,true);
    job.waitForCompletion(true);
  }

  public static void main(String[] args) throws Exception {
       runJob(Arrays.copyOfRange(args, 0, args.length-1), args[args.length-1]);
  }
}

如何使用hadoop找出文本中最常见的单词?

2 个答案:

答案 0 :(得分:0)

这是规范字数统计问题,您可以谷歌查找基本字数的任意数量的解决方案。然后你还有一个步骤:返回具有最大计数的单词。

怎么做?

如果数据量不是太大而你可以负担得起使用单个reducer,那么将reducers的数量设置为1.在reduce中保留一个局部变量来记住哪些组(即单词)有/有最高计数。然后将该结果写入HDFS中的文件。

如果数据量排除使用单个减速器,那么您只需要超出上面提到的第一个步骤:您需要在所有减速器中找到最高计数。您可以通过全局计数器或通过将每个单独的最大单词写入hdfs中的(微小)文件并执行后处理步骤(可能是Linux脚本)来解析并获取maxes的最大值。或者你可以让另一个map / reduce作业找到它 - 但这对于那个小/简单的操作来说有点过分。

答案 1 :(得分:0)

我认为你错了sort -n -k2在这种情况下不会大规模运作。 WordCount可能永远不会输出数千或数万字的顺序。这仅仅是由于大多数自然语言的基数。因此,即使您有10 PB的数据,它仍然会被提炼成最多10,000或20,000个单词(尽管数量很高)。

首先,让您的WordCount作业运行数据。然后,使用一些bash将顶部N拉出来。

hadoop fs -cat /output/of/wordcount/part* | sort -n -k2 | tail -n20

如果由于某种原因你从wordcount中得到了大量的话(也就是说,你没有用自然语言做的话)......

有两个MapReduce作业:

  1. WordCount:计算所有单词(几乎就是这个例子)
  2. TopN:找到某些内容的前N个的MapReduce作业(以下是一些示例:source codeblog post
  3. 让WordCount的输出写入HDFS。然后,让TopN读取该输出。这称为作业链,有许多方法可以解决这个问题:oozie,bash脚本,从你的驱动程序中解雇两个作业等。

    你需要两个工作的原因是你正在做两个聚合:一个是字数,第二个是topN。通常在MapReduce中,每个聚合都需要自己的MapReduce作业。