我们目前有一些文件存储在S3服务器上。这些文件是已经过gzip压缩以减少磁盘空间的日志文件(.log扩展名但是纯文本内容)。 但是gzip不可拆分,现在我们正在寻找一些在Amazon EMR上存储/处理我们文件的好方法。
那么在日志文件中使用的最佳压缩或文件格式是什么?我遇到了avro和SequenceFile,bzip2,LZO和snappy。这有点多,我有点不知所措。
所以我很欣赏这件事的任何见解。
数据将用于猪作业(地图/减少工作)
亲切的问候
答案 0 :(得分:0)
如果你检查Best Practices for Amazon EMR,那么有一节谈论压缩输出:
压缩映射器输出 - 压缩意味着写入磁盘的数据越少, 这改善了磁盘I / O.您可以监视写入磁盘的数据量 通过查看FILE_BYTES_WRITTEN Hadoop度量标准。压缩也可以 帮助减速器拉数据的混洗阶段。压缩可以 也有益于您的群集HDFS数据复制。启用压缩 通过将mapred.compress.map.output设置为true。启用时 压缩,您也可以选择压缩算法。 LZO有 性能更好,压缩和解压缩速度更快。
答案 1 :(得分:0)
嗨,我们可以根据用例使用以下算法。