Hadoop MapReduce中每个阶段生成的中间数据在哪里存储?

时间:2017-07-14 02:42:29

标签: hadoop mapreduce

我已经学习了hadoop mapreduce一段时间了,如你所知,hadoop使用hdfs在硬盘上存储数据文件,当我们运行mapreduce时,progran从hdfs获取数据,但是在mapreduce的每个阶段,数据从哪里获取存储在哪里?我得到了一些答案

  1. HSFS
  2. 运行mapreduce的本地硬盘

1 个答案:

答案 0 :(得分:2)

通常,map和reduce任务生成的中间数据文件存储在运行MapReduce的本地磁盘上的目录(位置)中。该目录包含:

  • 输出由地图任务生成的文件,作为reduce任务的输入。
  • reduce任务生成的临时文件。

临时数据位置由mapreduce.cluster.local.dir属性控制。您可以为映射生成的中间数据配置一个或多个位置,并减少任务。

在某些情况下,ExecutorNode没有足够的空间来存储中间数据,它可以存储在另一个磁盘上,并且有足够的空间可用。

link对于了解更多信息非常有用。