假设每个Reducer输出一个整数作为其值(或键)。有没有办法在Hadoop的主程序中访问这些值(或键)(例如总结一下)?
答案 0 :(得分:2)
你的输出格式是什么?如果您正在使用SequenceFileOutput,则可以在作业完成后使用SequenceFile.Reader类在主程序中打开part-r-xxxxx文件。例如,输出<Text, IntWritable>
的作业,您可以按如下方式对值求和:
FileSystem fs = FileSystem.get(getConf());
Text key = new Text();
IntWritable value = new IntWritable();
long total = 0;
for (FileStatus fileStat : fs.globStatus(new Path("/user/jsmith/output/part-r-*"))) {
SequenceFile.Reader reader = new SequenceFile.Reader(fs, fileStat.getPath(), getConf());
while (reader.next(key, value)) {
total = value.get();
}
reader.close();
}
对于TextOutputFormat,以下内容可能会这样做(替换for循环的内容):
BufferedReader reader = new BufferedReader(new InputStreamReader(fs.open(fileStat.getPath())));
String nextLine;
while ((nextLine = reader.readLine()) != null) {
String tokens[] = nextLine.split("\t");
total += Integer.parseInt(tokens[1]);
}
reader.close();