Azure搜索:法语或任何语言分析器是否支持共轭?

时间:2017-04-11 03:39:42

标签: azure search azure-search

我面临法语的商业要求,必须支持共轭。例如,如果用户搜索“Être”,那么它也应该找到动词形式的变体(语音,情绪,时态等)。

根据我所看到的,Azure搜索fr.microsoft分析器(或内置的自定义分析器)支持它。我通过搜索“Être”和查找文件来验证这一点:est,EST,sera,sont和etre。

但是,它没有找到以下文件:ete,etes,Ete,Etes。

我搜索并找到了这个记录简单和复合形式的页面。 http://conjugator.reverso.net/conjugation-french-verb-%C3%AAtre.html

它看起来不像Microsoft法语语言分析器支持所有这些。这是真的?如果是这样,那么我如何确保所有处理?我是否需要添加“ete”和“etes”作为“Être”的同义词?如果是这样,我还需要添加“Ete”和“Etes”作为“Être”的同义词吗?

我有办法获得有关Azure搜索中所有法语共轭支持的文档吗?

最后但并非最不重要的是,我如何更好地理解“Être”的所有结合?我尝试使用Analyzer API ...

{ "analyzer": "fr.microsoft",   "text": "Être" }

但我只收到以下回复:

{
  "@odata.context": "https://one-adscope-search-poc2.search.windows.net/$metadata#Microsoft.Azure.Search.V2016_09_01.AnalyzeResult",
  "tokens": [
    {
      "token": "etre",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "être",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    }
  ]
}

1 个答案:

答案 0 :(得分:0)

在Azure搜索中,我们的语言分析器使用规范化形式来匹配单词的不同变形。例如,在索引编制时,Microsoft分析器会分析单词' sont'到了' etre'并索引该单词的原始和规范化/词形化形式。在查询时,假设您要发布带有'的搜索查询。 “' est'还分析了' etre'并找到包含' sont'的文件。您共享的Analyze API的响应符合此预期。

不幸的是,我们在文档中没有提供详尽的变体列表。您可以使用文档样本并使用Analyze API的响应生成列表。

最后,您可以使用我们的同义词功能填补缺失的空白。我注意到不匹配的单词(ete,etes,Ete,Etes)都会分析到基本形式“ete”。您可以定义一个同义词规则,其中包含' etre'并且' ete'是等价的。同义词功能目前处于私人预览状态。如果您想尝试

,请随时与nateko AT microsoft联系

希望这会有所帮助。

Nate