我想知道压缩编解码器和文件格式在hadoop中有何不同。例如,镶木地板文件格式也减小了原始文件的大小并支持文件分割。 Bzip2codec也是如此。请帮助我更好地理解两者之间的区别。
答案 0 :(得分:1)
压缩和文件格式完全不同。
文件格式描述存储在文件中的数据结构。 Avro将包含Avro序列化对象,SequenceFile将包含一个键(通常是数字)和一个值(原始数据)。 Parquet是一种特殊的文件格式,允许列式存储,因此非常节省空间。
您可以使用更高效的格式(例如图像的TIFF和JPG),而不是(PSD)。
最重要的是,您可以选择使用不同的压缩编解码器压缩存储中的文件。 Bzip,snappy和GZ是常用的方法。这与在上面的示例中使用Zip压缩图像相对应。
希望这提供了一些清晰度。