在map函数中更新计数器并在reduce中访问

时间:2012-12-04 11:53:57

标签: hadoop

我正在使用Hadoop Pipes。我想在地图中使用计数器,该计数器应该可以在reduce函数中访问。
有可能吗?

1 个答案:

答案 0 :(得分:0)

不,在同样的工作中是不可能的。但是,您可以在没有reducer的情况下拥有单个作业,收集您想要计算的任何计数器信息,然后启动第二个作业,在作业配置对象中添加这些计数值,然后第二个作业的reducer可以访问这些值

编辑:

这是一个代码示例:

enum COUNTERS {C1; C2;}

class DriverCode
{
  Configuration conf = new Configuration();
  //the Mapper increases C1
  Job job1 = new Job(conf, "Job1"); 
  job1.setJarByClass(MyJar.class);
  job1.setMapperClass(MyMapper1.class); 
  ...

  //read out C1 
  long c1 = job.getCounters().findCounter(COUNTERS.C1).getValue();

  //set it for the new job
  conf.setLong("c1",c1);
  Job job2 = new Job(conf, "Job2"); 
  //and now you can access this configuration object in your second job
  job2.setJarByClass(MyJar.class); 
  job2.setMapperClass(MyMapper2.class);
  ...
}