在Mapreduce中,我们说映射器产生的输出称为中间数据。
中间数据是否也被复制?
中间数据是暂时的吗?
什么时候中间数据会被删除?是自动删除还是我们需要明确删除它?
答案 0 :(得分:6)
Mapper的溢出文件存储在运行Mapper的工作节点的本地文件系统中。同样,从一个节点流向另一个节点的数据存储在正在运行任务的工作节点的本地文件系统中。
此本地文件系统路径由。指定
的 hadoop.tmp.dir
强>
属性,默认为 ' / tmp' 。
在作业完成或失败后,本地文件系统上使用的临时位置会自动清除,您不必执行任何清理过程,它会自动处理框架。