Hadoop从循环缓冲区溢出记录(映射器)

时间:2014-12-08 16:35:45

标签: hadoop compression

据我了解,这些映射器有一个循环缓冲区,当它们决定将数据溢出到磁盘时,它们会一直写入,直到达到某个阈值。此过程可能涉及运行组合器并在写入磁盘时压缩数据。

所以,我想我是否可以配置压缩内存中的数据并存储在内存中,这样可能在映射器的末尾它没有溢出其循环内存,因此只需要溢出一次到内存磁盘。这可能吗?和/或有用吗?

由于

1 个答案:

答案 0 :(得分:0)

是的,这是可能的并且是有用的优化。它对于组合器不会很好用,因为你需要在写入之前再次解压缩缓冲区,所以如果定义了组合器,你需要注意你回退到旧的行为。