Question

我在Hadoop中实现了一个简单的MapReduce项目来处理日志。输入路径是日志所在的目录。

它工作正常，但我想知道如何在实现Mapper的类中随时处理日志的输入路径。 Mapper代码是：

public class StatsMapper extends MapReduceBase implements Mapper<WritableComparable<Text>,Text,Text,Text> { 

    public static final Log LOG = LogFactory.getLog(StatsMapper.class);

    public void configure(JobConf conf) {}

    public void map(WritableComparable<Text> key, Text value, OutputCollector<Text,Text> output, Reporter reporter)
            throws IOException {

        process(key,value);

    }

}

有什么想法吗？

提前致谢

Answer 1

阅读InputFormat部分here

如何分割和读取这些输入文件由InputFormat定义。 InputFormat是一个提供以下功能的类：选择应该用于输入的文件或其他对象定义将文件分解为任务的InputSplits 为读取文件的RecordReader对象提供工厂

获取Hadoop Mapper类中的输入路径

1 个答案: