如何在Hadoop中处理作业和任务级别的输出文件?

时间:2013-12-06 04:21:50

标签: hadoop mapreduce hdfs

根据权威指南,OutPutCommitter的setUpJob()将创建mapreduce输出目录,并为任务设置临时工作空间。 mapred.output.dir / _temporary

然后书中说任务级别的临时目录是在写入任务输出时创建的。

以上两种说法有点令人困惑。

1 个答案:

答案 0 :(得分:0)

所以基本上地图减少作业包括许多任务,即地图任务和减少任务。现在mapreduce输出目录是写入map-reduce作业的最终输出的目录。现在,当map reduce task运行时,每个map任务和reduce任务都会生成中间文件,这些文件是运行任务的节点的本地文件。每个中间任务的本地输出都写入临时工作空间。最后,在洗牌和其他阶段之后,这个中间输出最终根据您应用于map-reduce作业的逻辑写入hdfs作为最终输出。我希望能回答你的问题