当我尝试在avro上运行mapreduce时出现以下错误:
14/02/26 20:07:50 INFO mapreduce.Job:任务ID:attempt_1393424169778_0002_m_000001_0,状态:未通过 错误:org.apache.avro.generic.GenericData.createDatumWriter(Lorg / apache / avro / Schema;)Lorg / apache / avro / io / DatumWriter;
我该如何解决这个问题?
我启动并运行Hadoop 2.2 我正在使用Avro 1.7.6。
以下是代码:
package avroColorCount;
import java.io.IOException;
import org.apache.avro.*;
import org.apache.avro.Schema.Type;
import org.apache.avro.mapred.*;
import org.apache.hadoop.conf.*;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.mapred.*;
import org.apache.hadoop.util.*;
public class MapredColorCount extends Configured implements Tool {
public static class ColorCountMapper extends AvroMapper<User, Pair<CharSequence, Integer>> {
@Override
public void map(User user, AvroCollector<Pair<CharSequence, Integer>> collector, Reporter reporter)
throws IOException {
CharSequence color = user.getFavoriteColor();
// We need this check because the User.favorite_color field has type ["string", "null"]
if (color == null) {
color = "none";
}
collector.collect(new Pair<CharSequence, Integer>(color, 1));
}
}
public static class ColorCountReducer extends AvroReducer<CharSequence, Integer,
Pair<CharSequence, Integer>> {
@Override
public void reduce(CharSequence key, Iterable<Integer> values,
AvroCollector<Pair<CharSequence, Integer>> collector,
Reporter reporter)
throws IOException {
int sum = 0;
for (Integer value : values) {
sum += value;
}
collector.collect(new Pair<CharSequence, Integer>(key, sum));
}
}
public int run(String[] args) throws Exception {
if (args.length != 2) {
System.err.println("Usage: MapredColorCount <input path> <output path>");
return -1;
}
JobConf conf = new JobConf(getConf(), MapredColorCount.class);
conf.setJobName("colorcount");
FileInputFormat.setInputPaths(conf, new Path(args[0]));
FileOutputFormat.setOutputPath(conf, new Path(args[1]));
AvroJob.setMapperClass(conf, ColorCountMapper.class);
AvroJob.setReducerClass(conf, ColorCountReducer.class);
// Note that AvroJob.setInputSchema and AvroJob.setOutputSchema set
// relevant config options such as input/output format, map output
// classes, and output key class.
AvroJob.setInputSchema(conf, User.getClassSchema());
AvroJob.setOutputSchema(conf, Pair.getPairSchema(Schema.create(Type.STRING),
Schema.create(Type.INT)));
JobClient.runJob(conf);
return 0;
}
public static void main(String[] args) throws Exception {
int res = ToolRunner.run(new Configuration(), new MapredColorCount(), args);
System.exit(res);
}
}
答案 0 :(得分:3)
您使用的是错误版本的avro库。 createDatumWriter 方法首次出现在avro库的 1.7.5 版本的GenericData类中。如果Hadoop似乎没有找到它,那么这意味着你的类路径中有一个早期版本的avro库(可能是1.7.4)。
首先尝试使用HADOOP_CLASSPATH or -libjars选项提供正确版本的库。
不幸的是,它可能更棘手。在我的情况下,我加载了我的项目,但实际上从未使用过的其他jar文件。我花了几个星期才找到它。希望你现在能更快找到它。
以下是一些方便的代码,可帮助您在作业运行期间分析类路径(在工作中使用它,如WordCount示例):
public static void printClassPath() {
ClassLoader cl = ClassLoader.getSystemClassLoader();
URL[] urls = ((URLClassLoader) cl).getURLs();
System.out.println("classpath BEGIN");
for (URL url : urls) {
System.out.println(url.getFile());
}
System.out.println("classpath END");
}
希望它有所帮助。
答案 1 :(得分:0)
Viacheslav Rodionov的答案肯定指出了根本原因。感谢您的发表!然后,以下配置设置似乎首先获取1.7.6库并允许我的reducer代码(调用createDatumWriter方法)成功完成:
Configuration conf = getConf();
conf.setBoolean(MRJobConfig.MAPREDUCE_JOB_USER_CLASSPATH_FIRST, true);
Job job = Job.getInstance(conf);
答案 2 :(得分:0)
我遇到了与Viacheslav建议完全相同的问题 - 它与安装了Hadoop发行版的Avro和项目中的Avro版本之间存在版本冲突。
这似乎是解决问题最可靠的方法 - 只需使用随Hadoop发行版安装的Avro版本。除非有令人信服的理由使用不同的版本。
为什么使用Hadoop发行版附带的默认Avro版本是个好主意?因为在生产hadoop环境中,您很可能会处理在同一共享hadoop基础结构上运行的许多其他作业和服务。并且所有这些都与生产环境中安装的Hadoop发行版共享相同的jar依赖项 替换特定mapreduce作业的jar版本可能是棘手但可解决的任务。但是,它会产生引入兼容性问题的风险,这些问题可能很难检测到,并且可能会在您的hadoop生态系统中的其他位置发生逆转。