标签: pyspark pyspark-sql
我有一张很大的桌子,上面有压缩的(snappy,gzip,lzo)拼花格式。我正在测试其他Pyspark SQL查询的时间。我希望快照能根据我的阅读表现最佳。人们特别说它之所以快速,是因为它可以快速压缩/解压缩。但是,对于gzip,压缩率最高的格式始终较快。
哪些因素可以使gzip性能更好?