Hadoop - 如何从mapred.JobConf中提取taskId?

时间:2015-02-11 23:25:03

标签: java hadoop mapreduce hive

是否可以从*mapreduce*.TaskAttemptID创建有效的*mapred*.JobConf

背景

我需要为FileInputFormatAdapter写一个ExistingFileInputFormat。问题是适配器需要扩展mapred.InputFormat,现有格式扩展mapreduce.InputFormat

我需要构建一个mapreduce.TaskAttemptContextImpl,以便我可以实例化ExistingRecordReader。但是,我无法创建有效的TaskId ... taskId将显示为null。

那么如何从mapred.JobConf获取taskId,jobId等。

特别是在适配器getRecordReader中,我需要做类似的事情:

public org.apache.hadoop.mapred.RecordReader<NullWritable, MyWritable> getRecordReader(
        org.apache.hadoop.mapred.InputSplit split, JobConf job, Reporter reporter) throws IOException {

    SplitAdapter splitAdapter = (SplitAdapter) split;

    final Configuration conf = job;

    /*************************************************/
    //The problem is here, "mapred.task.id" is not in the conf
    /*************************************************/
    final TaskAttemptID taskId = TaskAttemptID.forName(conf.get("mapred.task.id"));

    final TaskAttemptContext context = new TaskAttemptContextImpl(conf, taskId);
    try {
        return new RecordReaderAdapter(new ExistingRecordReader(
                splitAdapter.getMapRedeuceSplit(),
                context));
    } catch (InterruptedException e) {
        throw new RuntimeException("Failed to create record-reader.", e);
    }
}

此代码抛出异常:

Caused by: java.lang.NullPointerException
    at org.apache.hadoop.mapreduce.task.TaskAttemptContextImpl.<init>(TaskAttemptContextImpl.java:44)
    at org.apache.hadoop.mapreduce.task.TaskAttemptContextImpl.<init>(TaskAttemptContextImpl.java:39)

'super(conf,taskId.getJobID());'抛出异常,很可能是因为taskId为null。

1 个答案:

答案 0 :(得分:1)

我通过查看HiveHbaseTableInputFormat找到了答案。由于我的解决方案针对的是hive,因此效果非常好。

 TaskAttemptContext tac = ShimLoader.getHadoopShims().newTaskAttemptContext(
        job.getConfiguration(), reporter);