如何使用python库压缩2GB到300 mb

时间:2017-11-15 17:02:33

标签: python compression

我有一百万个字符串数据并写入文件,我使用Python gZip压缩,大小约为2GB,我想减少到250-300 MB?

有没有办法压缩更多并将其带到300 MB?

非常感谢任何帮助。

谢谢!

1 个答案:

答案 0 :(得分:2)

有时你可以帮助压缩之前预处理数据的gzip和其他算法。

例如,如果你有一个图像,而不是压缩原始像素数据,你可以尝试压缩当前像素和前一个像素之间的差异。

因此,不要只压缩字符串数据,而是在使用有关数据本身的知识之前尝试对其进行预处理。

不要只计算字符之间的增量:尝试规范化东西以减少差异(删除不需要的字符,最后一个字符和行尾之间的空格,不需要的空格等)。

如果您的字符串数据由字段组成(通常是),则另一种有效的技术是压缩列而不是行。柱状数据往往具有较小的方差,gzip可以轻松利用它。

请记住,从2GB 压缩数据到 300M 压缩将很难实现,并且您可能需要在解压缩后处理数据才能使用