Lucene / Elasticsearch:可查找拉丁,阿拉伯和西里尔字母

时间:2020-09-23 10:13:46

标签: elasticsearch lucene

在使用lucene / elasticsearch进行索引和搜索时,我想将不同的脚本(例如西里尔字母,古希腊字母,阿拉伯字母)标准化为拉丁字母

示例(西里尔字母):

  • 如果我索引“ apoteka”一词并搜索“апотека”,那么我想找到它。
  • 如果我为单词“апотека”建立索引并搜索“ apoteka”,那么我想找到它。
  • 如果我为单词“апотека”建立索引并搜索“апотека”,那么我想找到它。
  • 如果我将单词“ apoteka”编入索引并搜索“ apoteka”,那么我想找到它。
  • 如果我索引“ apoteka”一词并搜索“ pharmacy”,那我就不喜欢找到它(无翻译)

如果阿拉伯语脚本也有类似的方式,那就太好了

  • 如果我为单词“ mustashfaa”(医院用阿拉伯语)建立索引并搜索“مستشفى”,那么我想找到它。

当然应该保留其他Lucene功能:

  • 如果我将单词“ apotheke”编入索引并模糊搜索“апотека”,那么我想找到它。
  • 如果我使用Double Metaphone为单词“аптека”建立索引并搜索“ apotheke”,那么我想找到它。

0 个答案:

没有答案