如何标记来自不同目录的特定输入文件

时间:2012-07-13 20:20:26

标签: hadoop mapreduce

我正在阅读两组目录(比方说dirA和dirt)作为我的MapReduce作业的输入,我需要以某种方式标记它们,以便在映射阶段我知道哪个是哪个。有什么建议吗?

1 个答案:

答案 0 :(得分:2)

您可以使用MultipleInputs进行调查,并为每个输入路径定义不同的映射器,或检查输入拆分(Context.getInputSplit() - 将其转换为FileSplit并获取路径)并相应地调整输出。