多字同义词和奇数令牌顺序

时间:2013-10-02 00:57:16

标签: solr lucene elasticsearch

为什么synonymTokenFilter在多字同义词中匹配第一个标记后立即放置扩展的术语?虽然我正在使用弹性搜索,但这肯定适用于那里的任何solr / lucene大师。我只在索引时使用它,但它与带状疱疹一起使用,所以顺序非常重要。

我有一个同义词:

爆米花机,爆米花机

我的synonymTokenFilter通过elasticsearch中的默认值扩展= true。

当我查看我的代币时,爆米花机总是插在爆米花和爆米花之间,无论输入术语是爆米花机还是爆米花机。

分析“ popcorn popper

的示例
 t1:Popcorn t2:popcorn t3:machine t4:popper

分析“爆米花机

的示例
  t1:Popcorn t2:popcorn t3:machine t4:popper

1 个答案:

答案 0 :(得分:1)

Lucene令牌流is actually a graph。像同义词这样的东西确实会导致图形模型和令牌偏移的问题。然而,在较新的Lucene版本中,情况有所改善。您可能需要查看(Solr和Lucene)Jiras以找到相关的讨论。