验证hadoop映射输出真的是压缩的

时间:2013-05-13 13:21:57

标签: hadoop mapreduce

我正在hadoop中运行map / reduce作业,具有以下特征,让我们看看我是否正确阅读:

Counter                         Map
FILE: Number of bytes read      131,229,590,404
FILE: Number of bytes written   274,528,656,294 
HDFS: Number of bytes read      45,564,455,186
Map output records              303,345,304 
Spilled Records                 604,392,672

基于计数器,我看到它输出300M记录,并且溢出600M,这告诉我,通过数据需要2次完整传递才能对其进行排序。这应该意味着45G读取HDFS,然后读取/读取第一次通过的45G,并写入45G用于第二次通过排序。

mapred.compress.map.output  true
mapred.map.output.compression.codec org.apache.hadoop.io.compress.SnappyCodec

2013-05-13 11:31:32,217 INFO org.apache.hadoop.mapred.Merger: Merging 8 sorted segments

这些数字对我来说是可疑的,压缩,数据约为45G,未压缩的数据约为130G。我想知道我是否只是错误地读取这些值,或者我是否真的按照上述顺序写出未压缩的地图数据。

0 个答案:

没有答案