在Azure搜索中创建支持双方的EdgeNGram分析器

时间:2017-10-15 14:50:31

标签: search analyzer azure-search elasticsearch-analyzers

为Azure搜索定义自定义分析器时,可以选择从this列表中定义令牌过滤器。 我试图支持搜索前缀和中缀。 例如:如果某个字段包含名称:123 456,我希望可搜索的术语包含:

1
12
123
23
3
4
45
456
56
6

当使用EdgeNGramTokenFilterV2似乎可以解决这个问题时,可以选择定义“side”属性,但只支持“front”和“back”,而不是两者都支持。 “front”(默认)值生成此列表:

1
12
123
4
45
456

并返回生成:

123
23
3
456
56
6

我尝试使用两个令牌两个EdgeNGramTokenFilterV2s,但这会创建组合两个过滤器的术语,例如:“2”或“5”:

1
12
123
23
3
4
45
456
56
6
2 // Unwanted
5 // Unwanted

我也试过使用“反向”令牌,但是这会反转一切,结果仍然是错误的。

我只使用一个搜索字段(“名称”),并希望它保持这样。 (考虑使用不同的分析器使用名为“name_reverse”的不同字段的选项,但这非常低效,并且在将搜索引擎连接到数据源时会引起很多麻烦。

为便于参考,这是当前的索引创建请求:

{
 "name": "testindexboth",  
 "fields": [
  {"name": "id", "type": "Edm.String", "key": true },
  {"name": "Name", "type": "Edm.String", "searchable": true, "analyzer": "myAnalyzer"}
 ],
 "myAnalyzer": [
  {
   "name": "myAnalyzer",
   "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
   "tokenizer": "standard_v2",
    "tokenFilters":["front_filter", "back_filter"]
  }],

    "tokenFilters":[
            {
               "name":"front_filter",
               "@odata.type":"#Microsoft.Azure.Search.EdgeNGramTokenFilterV2",
               "maxGram":15,
               "side": "front"
            },
                        {
               "name":"back_filter",
               "@odata.type":"#Microsoft.Azure.Search.EdgeNGramTokenFilterV2",
               "maxGram":15,
               "side": "back"
            }
        ]
}

是否可以选择将两者结合起来,而不让他们加强结果?

1 个答案:

答案 0 :(得分:1)

在索引中添加两个字段,使用两个不同的自定义分析器:一个用于前缀,一个用于后缀。查询时,查询这两个字段。