获取Hadoop Mapper类中的输入路径

时间:2011-03-07 14:44:53

标签: java hadoop mapreduce

我在Hadoop中实现了一个简单的MapReduce项目来处理日志。输入路径是日志所在的目录。

它工作正常,但我想知道如何在实现Mapper的类中随时处理日志的输入路径。 Mapper代码是:

public class StatsMapper extends MapReduceBase implements Mapper<WritableComparable<Text>,Text,Text,Text> { 

    public static final Log LOG = LogFactory.getLog(StatsMapper.class);

    public void configure(JobConf conf) {}

    public void map(WritableComparable<Text> key, Text value, OutputCollector<Text,Text> output, Reporter reporter)
            throws IOException {

        process(key,value);

    }

}

有什么想法吗?

提前致谢

1 个答案:

答案 0 :(得分:2)

阅读InputFormat部分here

  

如何分割和读取这些输入文件由InputFormat定义。 InputFormat是一个提供以下功能的类:   选择应该用于输入的文件或其他对象   定义将文件分解为任务的InputSplits   为读取文件的RecordReader对象提供工厂