我有一个很长(> 1M)的文件路径字符串列表。我需要单独压缩这些字符串以节省空间。路径可以很长,例如150个字符。
许多路径都有一个共同的前缀,这会改善压缩,如果我只能将它们压缩为批量。
尝试gzip
和zip
,我在一个字符串上获得16%的压缩率,在1000个字符串上获得85%的压缩率,这是预期的。
有没有办法去教授"数据分布是预先确定的算法,或者有一个"学习"算法可以改善后续应用程序的压缩效果吗?
我需要这个作为一个图书馆,现在没时间发展我自己。我想在这里可以提供帮助。