我正在使用Hadoop开发mapreduce项目。我目前有3个连续的工作。
我想使用Hadoop计数器,但问题是我想在第一个作业中进行实际计数,但是在第3个作业的reducer中访问计数器值。
我怎样才能做到这一点?我应该在哪里定义enum
?我是否需要通过它才能完成第二份工作?它还有助于查看一些代码示例,因为我找不到任何东西。
注意:我使用的是Hadoop 2.7.2
编辑:我已经尝试了解释here的方法并且没有成功。我的情况不同,因为我想从不同的工作访问计数器。 (不是从mapper到reducer)。
我试图做的事情: 第一份工作:
public static void startFirstJob(String inputPath, String outputPath) throws IOException, ClassNotFoundException, InterruptedException {
Configuration conf = new Configuration();
Job job = Job.getInstance(conf, "wordCount");
job.setJarByClass(WordCount.class);
job.setMapperClass(WordCountMapper.class);
job.setCombinerClass(WordCountReducer.class);
job.setReducerClass(WordCountReducer.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(LongWritable.class);
job.setInputFormatClass(SequenceFileInputFormat.class);
job.setOutputFormatClass(SequenceFileOutputFormat.class);
FileInputFormat.addInputPath(job, new Path(inputPath));
FileOutputFormat.setOutputPath(job, new Path(outputPath));
job.waitForCompletion(true);
}
在另一个类中定义了计数器枚举:
public class CountersClass {
public static enum N_COUNTERS {
SOMECOUNT
}
}
试图阅读计数器:
Cluster cluster = new Cluster(context.getConfiguration());
Job job = cluster.getJob(JobID.forName("wordCount"));
Counters counters = job.getCounters();
CountersClass.N_COUNTERS mycounter = CountersClass.N_COUNTERS.valueOf("SOMECOUNT");
Counter c1 = counters.findCounter(mycounter);
long N_Count = c1.getValue();
答案 0 :(得分:4)
经典解决方案是将作业的计数器值放入您需要访问的后续作业的配置中:
因此,请确保在计数作业映射器/缩减器中正确递增:
context.getCounter(CountersClass.N_COUNTERS.SOMECOUNT).increment(1);
然后在完成工作完成后:
job.waitForCompletion(true);
Counter someCount = job.getCounters().findCounter(CountersClass.N_COUNTERS.SOMECOUNT);
//put counter value into conf object of the job where you need to access it
//you can choose any name for the conf key really (i just used counter enum name here)
job2.getConfiguration().setLong(CountersClass.N_COUNTERS.SOMECOUNT.name(), someCount.getValue());
下一篇文章是在另一个作业的mapper / reducer中访问它。只需覆盖设置() 例如:
private long someCount;
@Override
protected void setup(Context context) throws IOException,
InterruptedException {
super.setup(context);
this.someCount = context.getConfiguration().getLong(CountersClass.N_COUNTERS.SOMECOUNT.name(), 0));
}
答案 1 :(得分:2)
在第一份工作结束时获取计数器,并将其值写入文件并在后续作业中读取。如果要在reducer或本地文件中读取它,如果要在应用程序代码中读取和初始化,请将其写入HDFS。
Counters counters = job.getCounters();
Counter c1 = counters.findCounter(COUNTER_NAME);
System.out.println(c1.getDisplayName()+":"+c1.getValue());
阅读和编写文件是基础教程的一部分。