我正在使用hadoop cdh4.1.2,我的mapper程序几乎是输入数据的回声。但是在我的工作状态页面中,我看到了
FILE: Number of bytes written 3,040,552,298,327
几乎等于
FILE: Number of bytes read 3,363,917,397,416
对于地图制作者,而我已经设置了
conf.set("mapred.compress.map.output", "true");
似乎他们压缩算法对我的工作不起作用?这是为什么?
答案 0 :(得分:1)
你的工作是否有减速机?
如果是这样,请检查'减少随机字节'。如果这大大小于(1/5左右)'映射输出字节',您可以假设地图输出被压缩。压缩在地图完成后发生,所以,它可能会显示它输出的实际数据大小而不是压缩大小。
如果您仍然怀疑它是否正常工作,请提交带有和不带压缩的作业并比较'Reduce shuffle bytes'。就地图输出压缩而言,“减少随机字节”就是最重要的。