为什么synonymTokenFilter在多字同义词中匹配第一个标记后立即放置扩展的术语?虽然我正在使用弹性搜索,但这肯定适用于那里的任何solr / lucene大师。我只在索引时使用它,但它与带状疱疹一起使用,所以顺序非常重要。
我有一个同义词:
爆米花机,爆米花机我的synonymTokenFilter通过elasticsearch中的默认值扩展= true。
当我查看我的代币时,爆米花机总是插在爆米花和爆米花之间,无论输入术语是爆米花机还是爆米花机。
分析“ popcorn popper ”
的示例 t1:Popcorn t2:popcorn t3:machine t4:popper
分析“爆米花机”
的示例 t1:Popcorn t2:popcorn t3:machine t4:popper
答案 0 :(得分:1)
Lucene令牌流is actually a graph。像同义词这样的东西确实会导致图形模型和令牌偏移的问题。然而,在较新的Lucene版本中,情况有所改善。您可能需要查看(Solr和Lucene)Jiras以找到相关的讨论。