我试图使用Hadoop找出文本中最常见的单词。 Hadoop是一个框架,允许跨计算机集群分布式处理大型数据集。
我知道这可以通过使用Unix命令轻松完成:job: sort -n -k2 txtname | tail
。但这并不适用于大型数据集。所以我试图解决问题,然后结合结果。
这是我的WordCount
课程:
import java.util.Arrays;
import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
public class WordCount {
public static void runJob(String[] input, String output) throws Exception {
Configuration conf = new Configuration();
Job job = new Job(conf);
job.setJarByClass(WordCount.class);
job.setMapperClass(TokenizerMapper.class);
job.setReducerClass(IntSumReducer.class);
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(IntWritable.class);
Path outputPath = new Path(output);
FileInputFormat.setInputPaths(job, StringUtils.join(input, ","));
FileOutputFormat.setOutputPath(job, outputPath);
outputPath.getFileSystem(conf).delete(outputPath,true);
job.waitForCompletion(true);
}
public static void main(String[] args) throws Exception {
runJob(Arrays.copyOfRange(args, 0, args.length-1), args[args.length-1]);
}
}
据我所知,我需要另外完成一项工作,与字数统计的map reduce类并行工作。
这是我的TokenizerMapper
课程:
import java.io.IOException;
import java.util.StringTokenizer;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
public class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable> {
private final IntWritable one = new IntWritable(1);
private Text data = new Text();
public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
StringTokenizer itr = new StringTokenizer(value.toString(), "-- \t\n\r\f,.:;?![]'\"");
while (itr.hasMoreTokens()) {
data.set(itr.nextToken().toLowerCase());
context.write(data, one);
}
}
}
这是我的IntSumReducer
课程:
import java.io.IOException;
import java.util.Iterator;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
public class IntSumReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
private IntWritable result = new IntWritable();
public void reduce(Text key, Iterable<IntWritable> values, Context context)
throws IOException, InterruptedException {
int sum = 0;
for (IntWritable value : values) {
// TODO: complete code here
sum+=value.get();
}
result.set(sum);
// TODO: complete code here
if (sum>3) {
context.write(key,result);
}
}
}
我需要做的是定义另一个地图并减少与当前地图并行工作的类。将出现最常出现的单词,这是我目前为减少类所拥有的:
import java.io.IOException;
import java.util.Iterator;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.Reducer.Context;
public class reducer2 extends Reducer<Text, IntWritable, Text, IntWritable> {
int max_sum =0;
Text max_occured_key = new Text();
private IntWritable result = new IntWritable();
public void reduce(Text key, Iterable<IntWritable> values, Context context)
throws IOException, InterruptedException {
int sum = 0;
for (IntWritable value : values) {
// TODO: complete code here
sum+=value.get();
}
if (sum >max_sum) {
max_sum = sum;
max_occured_key.set(key);
}
context.write(max_occured_key, new IntWritable(max_sum));
//result.set(sum);
// TODO: complete code here
/*
if (sum>3) {
context.write(key,result);
}
*/
}
protected void cleanup(Context context) throws IOException, InterruptedException {
context.write(max_occured_key, new IntWritable(max_sum));
}
}
mapper2
的代码:
import java.io.IOException;
import java.util.StringTokenizer;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Mapper.Context;
public class mapper2 {
private final IntWritable one = new IntWritable(1);
private Text data = new Text();
public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
StringTokenizer itr = new StringTokenizer(value.toString(), "-- \t\n\r\f,.:;?![]'\"");
int count =0;
while (itr.hasMoreTokens()) {
//data.set(itr.nextToken().toLowerCase());
context.write(data, one);
}
}
}
我还编辑了WordCount
类,这样两个作业可以同时运行:
import java.util.Arrays;
import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
public class WordCount {
public static void runJob(String[] input, String output) throws Exception {
Configuration conf = new Configuration();
Job job = new Job(conf);
job.setJarByClass(WordCount.class);
job.setMapperClass(TokenizerMapper.class);
job.setReducerClass(IntSumReducer.class);
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(IntWritable.class);
Path outputPath = new Path(output);
FileInputFormat.setInputPaths(job, StringUtils.join(input, ","));
FileOutputFormat.setOutputPath(job, outputPath);
outputPath.getFileSystem(conf).delete(outputPath,true);
job.waitForCompletion(true);
Job job2 = new Job(conf);
job2.setJarByClass(WordCount.class);
job2.setMapperClass(TokenizerMapper.class);
job2.setReducerClass(reducer2.class);
job2.setMapOutputKeyClass(Text.class);
job2.setMapOutputValueClass(IntWritable.class);
Path outputPath2 = new Path(output);
FileInputFormat.setInputPaths(job, StringUtils.join(input, ","));
FileOutputFormat.setOutputPath(job, outputPath);
outputPath.getFileSystem(conf).delete(outputPath,true);
job.waitForCompletion(true);
}
public static void main(String[] args) throws Exception {
runJob(Arrays.copyOfRange(args, 0, args.length-1), args[args.length-1]);
}
}
如何使用hadoop找出文本中最常见的单词?
答案 0 :(得分:0)
这是规范字数统计问题,您可以谷歌查找基本字数的任意数量的解决方案。然后你还有一个步骤:返回具有最大计数的单词。
怎么做?
如果数据量不是太大而你可以负担得起使用单个reducer,那么将reducers的数量设置为1.在reduce中保留一个局部变量来记住哪些组(即单词)有/有最高计数。然后将该结果写入HDFS中的文件。
如果数据量排除使用单个减速器,那么您只需要超出上面提到的第一个步骤:您需要在所有减速器中找到最高计数。您可以通过全局计数器或通过将每个单独的最大单词写入hdfs中的(微小)文件并执行后处理步骤(可能是Linux脚本)来解析并获取maxes的最大值。或者你可以让另一个map / reduce作业找到它 - 但这对于那个小/简单的操作来说有点过分。
答案 1 :(得分:0)
我认为你错了sort -n -k2
在这种情况下不会大规模运作。 WordCount可能永远不会输出数千或数万字的顺序。这仅仅是由于大多数自然语言的基数。因此,即使您有10 PB的数据,它仍然会被提炼成最多10,000或20,000个单词(尽管数量很高)。
首先,让您的WordCount作业运行数据。然后,使用一些bash将顶部N拉出来。
hadoop fs -cat /output/of/wordcount/part* | sort -n -k2 | tail -n20
如果由于某种原因你从wordcount中得到了大量的话(也就是说,你没有用自然语言做的话)......
有两个MapReduce作业:
让WordCount的输出写入HDFS。然后,让TopN读取该输出。这称为作业链,有许多方法可以解决这个问题:oozie,bash脚本,从你的驱动程序中解雇两个作业等。
你需要两个工作的原因是你正在做两个聚合:一个是字数,第二个是topN。通常在MapReduce中,每个聚合都需要自己的MapReduce作业。