Question

答案可能在于问题，但无论如何我想确定： - ）

我索引了10000份文件。每个都有一个字段，存储一个正好100KB大的文本（它来自一个使用UTF-8的文本文件）。当该字段未压缩时，索引目录大436MB，但当字段被压缩时，它只有11,4MB。那将是37.5的压缩比 - 这太好了，不是真的，还是不是？或者除了索引目录之外，数据是否可能存储在我的计算机上的其他位置？

当我检索字段时，没有错误。一切都很好，但我确实从生活中知道，如果事情太好而不真实，那肯定是错的：D

以下是代码：

// RAW, NOT SEARCHABLE
FieldType fieldType2 = new FieldType();
fieldType2.setIndexed(false);
fieldType2.setTokenized(false);
fieldType2.setStored(true);
fieldType2.setOmitNorms(true);
fieldType2.setIndexOptions(FieldInfo.IndexOptions.DOCS_ONLY);
fieldType2.freeze();
Field raw = new Field("Raw", CompressionTools.compressString(text), fieldType2);
doc.add(raw);

Answer 1

压缩功能的作者建议he got even bigger improvement：76M - ＆gt; 1.7M因此您的结果具有可比性。

是的，Lucene不会在配置目录之外写文件，这将是一个主要的错误。

为什么压缩字段时我的索引目录如此之小？

1 个答案: