我正在hadoop中运行map / reduce作业,具有以下特征,让我们看看我是否正确阅读:
Counter Map
FILE: Number of bytes read 131,229,590,404
FILE: Number of bytes written 274,528,656,294
HDFS: Number of bytes read 45,564,455,186
Map output records 303,345,304
Spilled Records 604,392,672
基于计数器,我看到它输出300M记录,并且溢出600M,这告诉我,通过数据需要2次完整传递才能对其进行排序。这应该意味着45G读取HDFS,然后读取/读取第一次通过的45G,并写入45G用于第二次通过排序。
mapred.compress.map.output true
mapred.map.output.compression.codec org.apache.hadoop.io.compress.SnappyCodec
2013-05-13 11:31:32,217 INFO org.apache.hadoop.mapred.Merger: Merging 8 sorted segments
这些数字对我来说是可疑的,压缩,数据约为45G,未压缩的数据约为130G。我想知道我是否只是错误地读取这些值,或者我是否真的按照上述顺序写出未压缩的地图数据。