Lucene - 在字段

时间:2016-03-21 13:18:29

标签: lucene lucene.net

让我们说我正在索引一个字符串值" useridA; useridB,userdidC,useridA,useridA"

该字段设置为ANALYZED并使用自定义CharTokenizer查找边界逗号字符。 索引中的预期行为是什么,作为令牌" useridA"在同一个字段内出现多次?

它是否只是重新索引相同的值并保留相同的空间,就好像它只是一次出现一样?

1 个答案:

答案 0 :(得分:1)

在基本水平上,lucene是一个"反向术语索引"它存储term-> docID。因此,如果一个术语多次出现,它只会被记录一次。

显然这是一个巨大的简化。还会存储位置信息,具体取决于添加字段时使用的TermVector值(您需要使用此字符来使用短语和slop查询)。

根据您的使用情况,我建议您在编制索引时或者仅使用HashSet<串GT;无论你的班级是什么属性。