标签: java hadoop mapreduce
如果当映射达到某个阈值大小(默认值为80%,也假设缓冲区的容量为100MB)时,如果map函数将其输出写入的内存缓冲区的内容溢出到磁盘文件中,并且我的输入分割为128 MB:
1MB with key A 126MB with key B 1MB with key A
由于在映射器能够处理输入拆分的第三部分(1MB with key A)之前将达到内存阈值大小,因此,将密钥A的第一兆字节之前的密钥A抹在光盘上吗?密钥A是否已处理(因此不允许组合器在本地进行还原)?
1MB with key A