Amazon emr:最佳压缩/文件格式

时间:2014-04-23 17:18:57

标签: amazon-web-services hadoop compression apache-pig amazon-emr

我们目前有一些文件存储在S3服务器上。这些文件是已经过gzip压缩以减少磁盘空间的日志文件(.log扩展名但是纯文本内容)。 但是gzip不可拆分,现在我们正在寻找一些在Amazon EMR上存储/处理我们文件的好方法。

那么在日志文件中使用的最佳压缩或文件格式是什么?我遇到了avro和SequenceFile,bzip2,LZO和snappy。这有点多,我有点不知所措。

所以我很欣赏这件事的任何见解。

数据将用于猪作业(地图/减少工作)

亲切的问候

2 个答案:

答案 0 :(得分:0)

如果你检查Best Practices for Amazon EMR,那么有一节谈论压缩输出:

  

压缩映射器输出 - 压缩意味着写入磁盘的数据越少,   这改善了磁盘I / O.您可以监视写入磁盘的数据量   通过查看FILE_BYTES_WRITTEN Hadoop度量标准。压缩也可以   帮助减速器拉数据的混洗阶段。压缩可以   也有益于您的群集HDFS数据复制。启用压缩   通过将mapred.compress.map.output设置为true。启用时   压缩,您也可以选择压缩算法。 LZO有   性能更好,压缩和解压缩速度更快。

答案 1 :(得分:0)

嗨,我们可以根据用例使用以下算法。

  1. GZIP(算法):可拆分(否),压缩率(高),压缩和解压缩速度(中)
  2. SNAPPY(算法):可拆分(否),压缩率(LOW),压缩和解压缩速度(非常快)
  3. BZIP2(算法):可拆分(是),压缩率(非常高),压缩和解压缩速度(慢)
  4. LZO(算法):可拆分(是),压缩率(LOW),压缩和解压缩速度(FAST)