Question

我正在使用Hadoop 0.20.203.0。我想输出两个不同的文件，所以我试图让MultipleOutputs工作。

这是我的配置方法：

public static void main(String[] args) throws Exception {
Configuration conf = new Configuration();

String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
if (otherArgs.length != 2) {
  System.err.println("Usage: indycascade <in> <out>");
  System.exit(2);
}
Job job = new Job(conf, "indy cascade");
job.setJarByClass(IndyCascade.class);
job.setMapperClass(ICMapper.class);
job.setCombinerClass(ICReducer.class);
job.setReducerClass(ICReducer.class);

TextInputFormat.addInputPath(job, new Path(otherArgs[0]));
TextOutputFormat.setOutputPath(job, new Path(otherArgs[1]));

MultipleOutputs.addNamedOutput(conf, "sql", TextOutputFormat.class, LongWritable.class, Text.class);

job.waitForCompletion(true);
System.exit(job.waitForCompletion(true) ? 0 : 1);
}

但是，这不会编译。违规行为MultipleOutputs.addNamedOutput(...)，会引发“无法找到符号”错误。

isaac/me/saac/i/IndyCascade.java:94: cannot find symbol
symbol  : method addNamedOutput(org.apache.hadoop.conf.Configuration,java.lang.String,java.lang.Class<org.apa che.hadoop.mapreduce.lib.output.TextOutputFormat>,java.lang.Class<org.apache.hadoop.io.LongWritable>,java.lang.Class<org.apache.hadoop.io.Text>)
location: class org.apache.hadoop.mapred.lib.MultipleOutputs
    MultipleOutputs.addNamedOutput(conf, "sql", TextOutputFormat.class, LongWritable.class, Text.class);

当然，我尝试使用JobConf而不是Configuration，因为API需要，但这会导致相同的错误。此外，不推荐使用JobConf。

如何让MultipleOutput工作？这甚至是正确的类吗？

Answer 1

您正在混合旧的和新的API类型：

您正在使用旧的API org.apache.hadoop.mapred.lib.MultipleOutputs：

location: class org.apache.hadoop.mapred.lib.MultipleOutputs

使用新API org.apache.hadoop.mapreduce.lib.output.TextOutputFormat：

symbol  : method addNamedOutput(org.apache.hadoop.conf.Configuration,java.lang.String,java.lang.Class<org.apa che.hadoop.mapreduce.lib.output.TextOutputFormat>,java.lang.Class<org.apache.hadoop.io.LongWritable>,java.lang.Class<org.apache.hadoop.io.Text>)

使API保持一致，你应该没问题

编辑：事实上0.20.203没有新API的MultipleOutputs端口，因此您必须使用旧的API，在线查找新的API端口{{3} }），或自己移植

此外，您应该查看ToolRunner类来执行您的作业，它将不再需要显式调用GenericOptionsParser：

public static class Driver extends Configured implements Tool {
  public static void main(String[] args) throws Exception {
    System.exit(ToolRunner.run(new Driver(), args));
  }

  public int run(String args[]) {
    if (args.length != 2) {
      System.err.println("Usage: indycascade <in> <out>");
      System.exit(2);
    }

    Job job = new Job(getConf());
    Configuration conf = job.getConfiguration();

    // insert other job set up here

    return job.waitForCompletion(true) ? 0 : 1;
  }
}

最后一点 - 创建conf实例后对Job的任何引用都将是原始配置。 Job会对conf对象进行深层复制，因此调用MultipleOutputs.addNamedoutput(conf, ...)将无效，请使用MultipleOutputs.addNamedoutput(job.getConfiguration(), ...)。请参阅上面的示例代码，了解正确的方法

Hadoop MultipleOutputs.addNamedOutput抛出“找不到符号”

1 个答案: