AVRO Mapreduce出错

时间:2014-02-26 14:42:34

标签: hadoop mapreduce avro

当我尝试在avro上运行mapreduce时出现以下错误:

  

14/02/26 20:07:50 INFO mapreduce.Job:任务ID:attempt_1393424169778_0002_m_000001_0,状态:未通过   错误:org.apache.avro.generic.GenericData.createDatumWriter(Lorg / apache / avro / Schema;)Lorg / apache / avro / io / DatumWriter;

我该如何解决这个问题?

我启动并运行Hadoop 2.2 我正在使用Avro 1.7.6。

以下是代码:

package avroColorCount;
import java.io.IOException;

import org.apache.avro.*;
import org.apache.avro.Schema.Type;
import org.apache.avro.mapred.*;
import org.apache.hadoop.conf.*;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.mapred.*;
import org.apache.hadoop.util.*;

public class MapredColorCount extends Configured implements Tool {

  public static class ColorCountMapper extends AvroMapper<User, Pair<CharSequence, Integer>> {
    @Override
    public void map(User user, AvroCollector<Pair<CharSequence, Integer>> collector, Reporter reporter)
        throws IOException {
      CharSequence color = user.getFavoriteColor();
      // We need this check because the User.favorite_color field has type ["string", "null"]
      if (color == null) {
        color = "none";
      }
      collector.collect(new Pair<CharSequence, Integer>(color, 1));
    }
  }

  public static class ColorCountReducer extends AvroReducer<CharSequence, Integer,
                                                            Pair<CharSequence, Integer>> {
    @Override
    public void reduce(CharSequence key, Iterable<Integer> values,
                       AvroCollector<Pair<CharSequence, Integer>> collector,
                       Reporter reporter)
        throws IOException {
      int sum = 0;
      for (Integer value : values) {
        sum += value;
      }
      collector.collect(new Pair<CharSequence, Integer>(key, sum));
    }
  }

  public int run(String[] args) throws Exception {
    if (args.length != 2) {
      System.err.println("Usage: MapredColorCount <input path> <output path>");
      return -1;
    }

    JobConf conf = new JobConf(getConf(), MapredColorCount.class);
    conf.setJobName("colorcount");

    FileInputFormat.setInputPaths(conf, new Path(args[0]));
    FileOutputFormat.setOutputPath(conf, new Path(args[1]));

    AvroJob.setMapperClass(conf, ColorCountMapper.class);
    AvroJob.setReducerClass(conf, ColorCountReducer.class);

    // Note that AvroJob.setInputSchema and AvroJob.setOutputSchema set
    // relevant config options such as input/output format, map output
    // classes, and output key class.
    AvroJob.setInputSchema(conf, User.getClassSchema());
    AvroJob.setOutputSchema(conf, Pair.getPairSchema(Schema.create(Type.STRING),
        Schema.create(Type.INT)));

    JobClient.runJob(conf);
    return 0;
  }

  public static void main(String[] args) throws Exception {
    int res = ToolRunner.run(new Configuration(), new MapredColorCount(), args);
    System.exit(res);
  }
}

3 个答案:

答案 0 :(得分:3)

您使用的是错误版本的avro库。 createDatumWriter 方法首次出现在avro库的 1.7.5 版本的GenericData类中。如果Hadoop似乎没有找到它,那么这意味着你的类路径中有一个早期版本的avro库(可能是1.7.4)。

首先尝试使用HADOOP_CLASSPATH or -libjars选项提供正确版本的库。

不幸的是,它可能更棘手。在我的情况下,我加载了我的项目,但实际上从未使用过的其他jar文件。我花了几个星期才找到它。希望你现在能更快找到它。

以下是一些方便的代码,可帮助您在作业运行期间分析类路径(在工作中使用它,如WordCount示例):

public static void printClassPath() {
    ClassLoader cl = ClassLoader.getSystemClassLoader();
        URL[] urls = ((URLClassLoader) cl).getURLs();
    System.out.println("classpath BEGIN");
    for (URL url : urls) {
        System.out.println(url.getFile());
    }
    System.out.println("classpath END");
}

希望它有所帮助。

答案 1 :(得分:0)

Viacheslav Rodionov的答案肯定指出了根本原因。感谢您的发表!然后,以下配置设置似乎首先获取1.7.6库并允许我的reducer代码(调用createDatumWriter方法)成功完成:

Configuration conf = getConf();
conf.setBoolean(MRJobConfig.MAPREDUCE_JOB_USER_CLASSPATH_FIRST, true);
Job job = Job.getInstance(conf);

答案 2 :(得分:0)

我遇到了与Viacheslav建议完全相同的问题 - 它与安装了Hadoop发行版的Avro和项目中的Avro版本之间存在版本冲突。

这似乎是解决问题最可靠的方法 - 只需使用随Hadoop发行版安装的Avro版本。除非有令人信服的理由使用不同的版本。

为什么使用Hadoop发行版附带的默认Avro版本是个好主意?因为在生产hadoop环境中,您很可能会处理在同一共享hadoop基础结构上运行的许多其他作业和服务。并且所有这些都与生产环境中安装的Hadoop发行版共享相同的jar依赖项 替换特定mapreduce作业的jar版本可能是棘手但可解决的任务。但是,它会产生引入兼容性问题的风险,这些问题可能很难检测到,并且可能会在您的hadoop生态系统中的其他位置发生逆转。