映射器输出临时存储在循环缓冲区(内存中)中。默认缓冲区大小为100 Mb。当缓冲区填满80%时,将开始溢出过程。 (http://grepalex.com/2012/09/24/map-partition-sort-spill/) 什么时候溢出(到一次泄漏)停止/完成? 在创建固定大小的溢出后它会停止吗?
答案 0 :(得分:1)
好问题。让我试着一步一步解释。
答案 1 :(得分:0)
这里溢出意味着它溢出到本地磁盘(而不是hdfs),reducer会把它拿起来。溢出以循环方式写入mapred.local.dir属性指定的目录。当所有地图输出都写入磁盘时,溢出将停止。