为什么压缩字段时我的索引目录如此之小?

时间:2014-11-04 15:10:25

标签: lucene

答案可能在于问题,但无论如何我想确定: - )

我索引了10000份文件。每个都有一个字段,存储一个正好100KB大的文本(它来自一个使用UTF-8的文本文件)。当该字段未压缩时,索引目录大436MB,但当字段被压缩时,它只有11,4MB。那将是37.5的压缩比 - 这太好了,不是真的,还是不是?或者除了索引目录之外,数据是否可能存储在我的计算机上的其他位置?

当我检索字段时,没有错误。一切都很好,但我确实从生活中知道,如果事情太好而不真实,那肯定是错的:D

以下是代码:

// RAW, NOT SEARCHABLE
FieldType fieldType2 = new FieldType();
fieldType2.setIndexed(false);
fieldType2.setTokenized(false);
fieldType2.setStored(true);
fieldType2.setOmitNorms(true);
fieldType2.setIndexOptions(FieldInfo.IndexOptions.DOCS_ONLY);
fieldType2.freeze();
Field raw = new Field("Raw", CompressionTools.compressString(text), fieldType2);
doc.add(raw);

1 个答案:

答案 0 :(得分:0)

压缩功能的作者建议he got even bigger improvement:76M - > 1.7M因此您的结果具有可比性。

是的,Lucene不会在配置目录之外写文件,这将是一个主要的错误。