我有一个非常基本的问题,我正试图找到答案。我正在查看文档,以了解在映射阶段,洗牌阶段和减少阶段期间数据溢出的位置?如果映射器A具有16 GB的RAM,但是如果映射器的已分配内存已超过,那么数据将溢出。
数据是否溢出到HDFS或数据是否会溢出到磁盘上的tmp文件夹? 在随机播放阶段,数据从一个节点流式传输到另一个节点,并存储在HDFS或临时存储位置。
我提出这些问题的原因是要确定在工作完成后是否需要清理过程。请帮忙。
答案 0 :(得分:2)
映射器的中间文件(溢出文件)存储在运行Mapper的工作节点的本地文件系统中。类似地,从一个节点流到另一个节点的数据存储在正在运行任务的工作节点的本地文件系统中。
此本地文件系统路径由hadoop.tmp.dir
属性指定,默认情况下为' / tmp'。
在作业完成或失败后,本地文件系统上使用的临时位置会自动清除,您不必执行任何清理过程,它会自动处理框架。