我已经学习了hadoop mapreduce一段时间了,如你所知,hadoop使用hdfs在硬盘上存储数据文件,当我们运行mapreduce时,progran从hdfs获取数据,但是在mapreduce的每个阶段,数据从哪里获取存储在哪里?我得到了一些答案
答案 0 :(得分:2)
通常,map和reduce任务生成的中间数据文件存储在运行MapReduce的本地磁盘上的目录(位置)中。该目录包含:
临时数据位置由mapreduce.cluster.local.dir
属性控制。您可以为映射生成的中间数据配置一个或多个位置,并减少任务。
在某些情况下,ExecutorNode没有足够的空间来存储中间数据,它可以存储在另一个磁盘上,并且有足够的空间可用。
此link对于了解更多信息非常有用。