我尝试用Lucene 4.10索引大约600mb文件(用TIKA解析它们并编制索引)。一切正常,但我注意到.pos文件超过1GB对我来说非常可疑,有没有办法减少.pos文件的大小或完全禁用它?
由于
答案 0 :(得分:0)
.pos
文件是以精确顺序搜索多个单词所需的术语位置,例如"堆栈溢出"。
您可以使用FieldFormat
在setStoreTermVectorPositions(false)
上设置来禁用其创建:
https://lucene.apache.org/core/6_5_0/core/org/apache/lucene/document/FieldType.html
1GB的位置听起来很多,通常不是很大。在我的情况下,.pos文件大约是索引大小的10%,在所有文本字段上都启用了位置。