Hadoop映射器压缩输出不起作用?

时间:2013-09-16 04:03:33

标签: hadoop mapreduce compression mapper

我正在使用hadoop cdh4.1.2,我的mapper程序几乎是输入数据的回声。但是在我的工作状态页面中,我看到了

FILE: Number of bytes written  3,040,552,298,327

几乎等于

FILE: Number of bytes read 3,363,917,397,416

对于地图制作者,而我已经设置了

conf.set("mapred.compress.map.output", "true");
似乎他们压缩算法对我的工作不起作用?这是为什么?

1 个答案:

答案 0 :(得分:1)

你的工作是否有减速机?

如果是这样,请检查'减少随机字节'。如果这大大小于(1/5左右)'映射输出字节',您可以假设地图输出被压缩。压缩在地图完成后发生,所以,它可能会显示它输出的实际数据大小而不是压缩大小。

如果您仍然怀疑它是否正常工作,请提交带有和不带压缩的作业并比较'Reduce shuffle bytes'。就地图输出压缩而言,“减少随机字节”就是最重要的。