Question

我正在hadoop中运行map / reduce作业，具有以下特征，让我们看看我是否正确阅读：

Counter                         Map
FILE: Number of bytes read      131,229,590,404
FILE: Number of bytes written   274,528,656,294 
HDFS: Number of bytes read      45,564,455,186
Map output records              303,345,304 
Spilled Records                 604,392,672

基于计数器，我看到它输出300M记录，并且溢出600M，这告诉我，通过数据需要2次完整传递才能对其进行排序。这应该意味着45G读取HDFS，然后读取/读取第一次通过的45G，并写入45G用于第二次通过排序。

mapred.compress.map.output  true
mapred.map.output.compression.codec org.apache.hadoop.io.compress.SnappyCodec

2013-05-13 11:31:32,217 INFO org.apache.hadoop.mapred.Merger: Merging 8 sorted segments

这些数字对我来说是可疑的，压缩，数据约为45G，未压缩的数据约为130G。我想知道我是否只是错误地读取这些值，或者我是否真的按照上述顺序写出未压缩的地图数据。

验证hadoop映射输出真的是压缩的

0 个答案: