应用错误收集

我有一个很长（＆gt; 1M）的文件路径字符串列表。我需要单独压缩这些字符串以节省空间。路径可以很长，例如150个字符。

许多路径都有一个共同的前缀，这会改善压缩，如果我只能将它们压缩为批量。

尝试gzip和zip，我在一个字符串上获得16％的压缩率，在1000个字符串上获得85％的压缩率，这是预期的。

有没有办法去教授＆＃34;数据分布是预先确定的算法，或者有一个＆＃34;学习＆＃34;算法可以改善后续应用程序的压缩效果吗？

我需要这个作为一个图书馆，现在没时间发展我自己。我想在这里可以提供帮助。