归档lucene指数

时间:2012-08-29 09:54:46

标签: logging lucene compression zip

具有用例,其中数据通过lucene索引以进行搜索。每12个小时,当前索引以zip形式存档,并重新启动新索引。由于我们的数据流入率非常高,我们需要进行压缩以帮助存储。我们在搜索时使用java.util.zip进行压缩和解压缩。

现在的问题是,当某人在过去一周搜索数据时,需要花费大量时间来解压缩。如果有人可以建议我一些更好,更快的解压方法,那将会很棒。我正在考虑7-zip的LZMA,但是一些输入会很有用。与此同时,正在采取正确的方法吗?我有选择吗?我们有一个java代码库,等待您的输入。

2 个答案:

答案 0 :(得分:4)

LZMA具有更好的压缩效果,但解压缩速度更慢。

你可以向另一个方向前进并接受不那么好的压缩,以便更快地解压缩。您可以查看lz4。它的解压缩速度提高了大约四到五倍,但压缩到大约50%(你的里程可能会有所不同)。虽然lz4有一个高压缩(HC)模式,它花费更多时间压缩并且做得更好,但仍然可以非常快速地解压缩。

答案 1 :(得分:1)

以下库比具有类似压缩比的lzma更快地解压缩

http://code.google.com/p/lzham/