Question

我正在使用hadoop cdh4.1.2，我的mapper程序几乎是输入数据的回声。但是在我的工作状态页面中，我看到了

FILE: Number of bytes written  3,040,552,298,327

几乎等于

FILE: Number of bytes read 3,363,917,397,416

对于地图制作者，而我已经设置了

conf.set("mapred.compress.map.output", "true");

似乎他们压缩算法对我的工作不起作用？这是为什么？

Answer 1

你的工作是否有减速机？

如果是这样，请检查'减少随机字节'。如果这大大小于（1/5左右）'映射输出字节'，您可以假设地图输出被压缩。压缩在地图完成后发生，所以，它可能会显示它输出的实际数据大小而不是压缩大小。

如果您仍然怀疑它是否正常工作，请提交带有和不带压缩的作业并比较'Reduce shuffle bytes'。就地图输出压缩而言，“减少随机字节”就是最重要的。