我们正在研究POC,以确定哪种压缩技术最适合用于以压缩格式保存文件,并且具有更好的压缩格式性能。我们有4种格式* .gz,* .zlib,* .snappy& * .lz4。
我们发现* .gz和* .zlib具有更好的压缩率,但是在读取压缩时它们会出现性能问题,因为这些文件不可拆分,而Mapper,Reducer的数量始终为1.这些格式默认为Hive 0.14接受
但我们想为我们的文本文件测试其他压缩技术,如* .lz4,* .lzo和snappy
任何人都可以帮我解决如何配置我的配置单元来读取* .lzo,snappy和* .lz4以及Avro压缩的输入文件。
这些压缩技术是否存在hive 0.14或者我是否需要上传这些* .jar(我是.NET不知道java)并使用Serde进行序列化和反序列化。
任何人都可以帮助我,Hive是否默认接受那些文件格式,如* .lzo,* .snappy和* .lz4以及avro来读取这些压缩文件,我是否需要配置hive来读取这些文件格式。我正在寻找压缩文件格式的最佳性能。它可以在压缩率上妥协,但应该有更好的性能读数。