问题在于标题 - 何时使用压缩是好的?好我加快处理速度。
我的管道由多个MR作业组成,中间结果存储在序列文件中。
数据是数字 - 时间序列。此外,一个作业的输出与输入的大小相同。因此,传输/存储的数据可能很大。
我想知道我是否可以预期压缩会加速,或者压缩/解压缩数据会花费更多时间吗?
答案 0 :(得分:0)
使用快速编解码器(读取snappy)启用中间数据压缩几乎总是一个好主意。即使您的数据不可压缩,您也不会受到太多惩罚。
答案 1 :(得分:0)
只要您意识到要实现的目标,压缩就不会影响您的工作,请确保您的压缩数据是可拆分的。我发现bzip2格式在压缩率和CPU使用率方面更方便,但更适合在数据集上使用不同格式进行内部测试。
压缩有两大好处。
1)在运行mapreduce作业时使用较少的磁盘空间(间歇输出和最终输出压缩)。 2)提高作业性能,因为我们在整个群集节点的混洗阶段发送压缩数据。
希望这会有所帮助。