不同压缩格式的Pyspark性能

时间:2018-09-22 02:19:28

标签: pyspark pyspark-sql

我有一张很大的桌子,上面有压缩的(snappy,gzip,lzo)拼花格式。我正在测试其他Pyspark SQL查询的时间。我希望快照能根据我的阅读表现最佳。人们特别说它之所以快速,是因为它可以快速压缩/解压缩。但是,对于gzip,压缩率最高的格式始终较快。

哪些因素可以使gzip性能更好?

0 个答案:

没有答案