使用复合输入格式 - 地图侧连接

时间:2014-07-31 19:01:18

标签: java hadoop input mapreduce

我很想使用CompositeInputFormat执行Map-side Join。甚至没有调用映射器函数。以下是两个文件。

文件A - 键#VALUE

1#1;1
1#1;2
1#1;3
1#1;5
2#2;2
2#2;2
3#3;2
3#3;3
5#5;2
5#5;2

文件B - KEY#VALUE

1#1;1
1#1;1
1#1;1
1#1;1

源码

Path left= new Path(args[0]);
Path rigth = new Path(args[1])
String separator = "#";
Configuration config = new Configuration();
config.set("mapreduce.input.keyvaluelinerecordreader.key.value.separator", separator);
String joinExpression = CompositeInputFormat.compose("inner",   KeyValueTextInputFormat.class, left, rigth);
config.set("mapreduce.join.expr", joinExpression);

Job job =  Job.getInstance(config);
job.setJobName("Blah");
job.setJarByClass(Blah.class);
job.setMapperClass(PreditorasMapper.class);
job.setReducerClass(PreditorasReducer.class);
job.setInputFormatClass(CompositeInputFormat.class);
FileOutputFormat.setOutputPath(job, new Path(args[2]));
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(Text.class);
System.exit(job.waitForCompletion(true) ? 0 : 1);

可能出现什么问题?

1 个答案:

答案 0 :(得分:1)

问题出在mapper类中。

我正在使用:

public void map(Text key, Text value, Context context) 

而不是:

public void map(Text key, TupleWritable value, Context context)