我需要在Lucene中索引二元词(标记)。我可以产生n-gram而不是索引它们,但我想知道Lucene中是否有东西可以为我做这件事。 我发现Lucene仅索引n-gram字符。 有什么想法吗?
答案 0 :(得分:2)
使用NGramTokenizer:
答案 1 :(得分:1)
您正在寻找的课程是ShingleFilter:http://lucene.apache.org/java/2_4_0/api/org/apache/lucene/analysis/shingle/ShingleFilter.html
答案 2 :(得分:0)
根据您需要为二元组编制索引的原因,SpanQuery和/或SnowballAnalyzer可能会有所帮助。