我想压缩.txt
文件,这些文件包含yyyy-mm-dd hh:mm:ss
格式的日期和有时会在不同行中重复出现的英文单词。
我阅读了一些有关压缩算法的文章,发现在我的情况下,基于字典的编码比基于熵的编码更好。因为我想自己实现算法,所以我需要的不是很复杂。因此,我关注了LZW和LZ77,但不能在它们之间进行选择,因为我发现的文章结论相互矛盾。根据某些文章,LZW具有更好的压缩率,而根据其他文章,领先者是LZ77。所以问题是,就我而言,哪一个最有可能更好?有更多易于实现的算法可以满足我的目的吗?
答案 0 :(得分:2)
LZW已过时。现代甚至相当古老的LZ77压缩机都优于LZW。
无论如何,您是唯一可以回答问题的人,因为只有您要压缩的数据示例。只需对数据尝试各种压缩方法(zstd,xz,lz4等),然后查看哪种压缩率和速度组合可以满足您的需求。