如何有效地逐个压缩一长串文件路径字符串?

时间:2017-08-07 12:24:18

标签: python linux algorithm python-3.x compression

我有一个很长(> 1M)的文件路径字符串列表。我需要单独压缩这些字符串以节省空间。路径可以很长,例如150个字符。

许多路径都有一个共同的前缀,这会改善压缩,如果我只能将它们压缩为批量。

尝试gzipzip,我在一个字符串上获得16%的压缩率,在1000个字符串上获得85%的压缩率,这是预期的。

有没有办法去教授"数据分布是预先确定的算法,或者有一个"学习"算法可以改善后续应用程序的压缩效果吗?

我需要这个作为一个图书馆,现在没时间发展我自己。我想在这里可以提供帮助。

0 个答案:

没有答案