我有一百万个字符串数据并写入文件,我使用Python gZip压缩,大小约为2GB,我想减少到250-300 MB?
有没有办法压缩更多并将其带到300 MB?
非常感谢任何帮助。
谢谢!
答案 0 :(得分:2)
有时你可以帮助压缩之前预处理数据的gzip和其他算法。
例如,如果你有一个图像,而不是压缩原始像素数据,你可以尝试压缩当前像素和前一个像素之间的差异。
因此,不要只压缩字符串数据,而是在使用有关数据本身的知识之前尝试对其进行预处理。
不要只计算字符之间的增量:尝试规范化东西以减少差异(删除不需要的字符,最后一个字符和行尾之间的空格,不需要的空格等)。
如果您的字符串数据由字段组成(通常是),则另一种有效的技术是压缩列而不是行。柱状数据往往具有较小的方差,gzip可以轻松利用它。
请记住,从2GB 压缩数据到 300M 压缩将很难实现,并且您可能需要在解压缩后处理数据才能使用