我在Hadoop中实现了一个简单的MapReduce项目来处理日志。输入路径是日志所在的目录。
它工作正常,但我想知道如何在实现Mapper的类中随时处理日志的输入路径。 Mapper代码是:
public class StatsMapper extends MapReduceBase implements Mapper<WritableComparable<Text>,Text,Text,Text> {
public static final Log LOG = LogFactory.getLog(StatsMapper.class);
public void configure(JobConf conf) {}
public void map(WritableComparable<Text> key, Text value, OutputCollector<Text,Text> output, Reporter reporter)
throws IOException {
process(key,value);
}
}
有什么想法吗?
提前致谢
答案 0 :(得分:2)
阅读InputFormat部分here
如何分割和读取这些输入文件由InputFormat定义。 InputFormat是一个提供以下功能的类: 选择应该用于输入的文件或其他对象 定义将文件分解为任务的InputSplits 为读取文件的RecordReader对象提供工厂