Lucene .pos文件大小

时间:2017-04-17 18:46:05

标签: lucene

我尝试用Lucene 4.10索引大约600mb文件(用TIKA解析它们并编制索引)。一切正常,但我注意到.pos文件超过1GB对我来说非常可疑,有没有办法减少.pos文件的大小或完全禁用它?

由于

1 个答案:

答案 0 :(得分:0)

看看这里:https://lucene.apache.org/core/6_2_0/core/index.html?org/apache/lucene/codecs/lucene50/Lucene50PostingsFormat.html

.pos文件是以精确顺序搜索多个单词所需的术语位置,例如"堆栈溢出"。

您可以使用FieldFormatsetStoreTermVectorPositions(false)上设置来禁用其创建: https://lucene.apache.org/core/6_5_0/core/org/apache/lucene/document/FieldType.html

1GB的位置听起来很多,通常不是很大。在我的情况下,.pos文件大约是索引大小的10%,在所有文本字段上都启用了位置。