Hadoop MapReduce作业:获取本机jvm之外的计数器

时间:2015-01-13 15:04:29

标签: java hadoop mapreduce

我是Hadoop和Hbase的新手。

我的用例非常简单:我想在运行时获得reduce input groups个工作计数(即让计数器从启动到终止更新工作)。

到目前为止我搜索的内容:所有与工作相关的日志都写在目录/var/log/hadoop/userlogs下,如下所示:

[root@dev1-slave1 userlogs]# pwd
/var/log/hadoop/userlogs
[root@dev1-slave1 userlogs]# ll
total 24
drwx--x--- 2 mapred mapred 4096 Jan 13 19:59 job_201501121917_0008
drwx--x--- 2 mapred mapred 4096 Jan 13 11:31 job_201501121917_0009
drwx--x--- 2 mapred mapred 4096 Jan 13 12:01 job_201501121917_0010
drwx--x--- 2 mapred mapred 4096 Jan 13 12:13 job_201501121917_0011
drwx--x--- 2 mapred mapred 4096 Jan 13 12:23 job_201501121917_0012
drwx--x--- 2 mapred mapred 4096 Jan 13 19:59 job_201501121917_0013

在每个job下,有attempt_201501121917_0013_m_000000_0(映射器日志)和attempt_201501121917_0013_r_000000_0(缩减器日志)等目录。

reducer日志目录attempt_201501121917_0013_r_000000_0包含syslog,其中包含有关作业运行的信息。但它没有显示有关该计数器的任何信息。

在hadoop的jobtracker UI中,我可以看到计数器reduce input groups正在更新,直到作业完成,但我在其他地方找不到相同的内容。

我怎样才能做到这一点?是否有任何Java API可以在另一个应用程序中获取作业计数器(不在执行mapreduce任务的应用程序中)?

我应该研究哪些其他日志或其他文件?

我希望我的要求是明确的。

更新

Hadoop版本:Hadoop 1.0.3-Intel

3 个答案:

答案 0 :(得分:1)

假设您知道自己的工作ID,您可以通过ID查找工作(我认为在一段有限的时间内取决于您的群集清理工作历史的时间)。

public long getInputGroups(String jobId, Configuration conf) {
    Cluster cluster = new Cluster(conf);
    Job job = cluster.getJob(JobID.forName(jobId));
    Counters counters = job.getCounters();
    Counter counter = counters.findCounter("org.apache.hadoop.mapred.Task$Counter","REDUCE_I‌​NPUT_GROUPS");
    return counter.getValue();
}

有关更多阅读,请参阅Hadoop:The Definitive Guide。

答案 1 :(得分:0)

我以不同的方式找到了我的问题的答案。

以下是代码:

import org.apache.hadoop.mapred.JobClient;
import org.apache.hadoop.mapred.JobStatus;
import org.apache.hadoop.conf.Configuration;
import java.net.InetSocketAddress;
import org.apache.hadoop.mapred.Counters;
import org.apache.hadoop.mapred.ClusterStatus;
import org.apache.hadoop.mapreduce.Counter;
import org.apache.hadoop.mapred.*;
public class jobclienttest{
        public static void main(String args[]){
                String jobTrackerHost = "192.168.151.14";
                int jobTrackerPort = 54311;
                try{
                        JobClient jobClient = new JobClient(new InetSocketAddress(jobTrackerHost, jobTrackerPort), new Configuration());
                        JobStatus[] activeJobs = jobClient.jobsToComplete();

                        for(JobStatus js: activeJobs){
                                System.out.println(js.getJobID());
                                RunningJob runningjob = jobClient.getJob(js.getJobID());
                                Counters counters = runningjob.getCounters();
                                Counter counter = counters.findCounter("org.apache.hadoop.mapred.Task$Counter","REDUCE_INPUT_GROUPS");
                                System.out.println(counter.getValue());
                        }
                }catch(Exception ex){
                        ex.printStackTrace();
                }
        }
}

代码不言自明。班级名称不言而喻。

<强> COMPILE:

javac -classpath /usr/lib/hadoop/hadoop-core.jar:/usr/lib/hadoop/lib/jackson-core-asl-1.8.8.jar:/usr/lib/hadoop/lib/jackson-mapper-asl-1.8.8.jar:/usr/lib/hadoop/lib/commons-logging-1.1.1.jar:/usr/lib/hadoop/lib/commons-configuration-1.6.jar:/usr/lib/hadoop/lib/commons-lang-2.4.jar:. jobclienttest.java

生成

java -classpath /usr/lib/hadoop/hadoop-core.jar:/usr/lib/hadoop/lib/jackson-core-asl-1.8.8.jar:/usr/lib/hadoop/lib/jackson-mapper-asl-1.8.8.jar:/usr/lib/hadoop/lib/commons-logging-1.1.1.jar:/usr/lib/hadoop/lib/commons-configuration-1.6.jar:/usr/lib/hadoop/lib/commons-lang-2.4.jar:. jobclienttest

这给出了计数器的输出。

答案 2 :(得分:0)

您也可以从命令行获取计数器而无需编写任何Java:

hadoop job -counter job_id group_name counter_name

或(对于较新版本)

mapred job -counter job_id group_name counter_name