在使用lucene / elasticsearch进行索引和搜索时,我想将不同的脚本(例如西里尔字母,古希腊字母,阿拉伯字母)标准化为拉丁字母
示例(西里尔字母):
- 如果我索引“ apoteka”一词并搜索“апотека”,那么我想找到它。
- 如果我为单词“апотека”建立索引并搜索“ apoteka”,那么我想找到它。
- 如果我为单词“апотека”建立索引并搜索“апотека”,那么我想找到它。
- 如果我将单词“ apoteka”编入索引并搜索“ apoteka”,那么我想找到它。
- 如果我索引“ apoteka”一词并搜索“ pharmacy”,那我就不喜欢找到它(无翻译)
如果阿拉伯语脚本也有类似的方式,那就太好了
- 如果我为单词“ mustashfaa”(医院用阿拉伯语)建立索引并搜索“مستشفى”,那么我想找到它。
当然应该保留其他Lucene功能:
- 如果我将单词“ apotheke”编入索引并模糊搜索“апотека”,那么我想找到它。
- 如果我使用Double Metaphone为单词“аптека”建立索引并搜索“ apotheke”,那么我想找到它。