MapReduce如何处理多个输入文件?

时间:2014-06-29 05:09:54

标签: hadoop mapreduce mapper

所以我正在编写MR作业,从输入文件夹中读取数百个文件。由于所有文件都是压缩的,因此我使用的是来自在线代码源的WholeFileReadFormat,而不是使用默认的TextInputFormat。

所以我的问题是Mapper是否按顺序处理多个输入文件?我的意思是,如果我有三个文件ABC,并且因为我正在读取整个文件内容作为地图输入值,所以mapreduce会按顺序处理文件,例如A-> B-> C,这意味着,只有在使用A之后,Mapper才会开始处理B?

实际上,我对Map job和Map task的概念感到困惑。根据我的理解,Map作业与Mapper是一回事。并且映射器作业包含多个映射任务,在我的示例中,每个映射任务将在单个文件中读取。但我不明白的是,我认为地图任务是并行执行的,所以我认为所有的输入文件都应该并行处理,结果证明是矛盾的....

任何人都可以向我解释一下吗?

0 个答案:

没有答案