我们想使用Azure搜索提供的特定于语言的分析器,但要添加Lucene的html_char过滤器。我们的想法是构建一个自定义分析器,该分析器使用与en.microsoft分析器相同的组件(令牌生成器,过滤器),但添加其他字符过滤器。
遗憾的是,我们找不到任何有关准确构成en.microsoft分析器或任何其他Microsoft分析器的文档。我们不知道要使用自定义分析器使用哪些标记化器或过滤器来获得相同的结果。
有人能指出我们正确的文档吗?
文档说en.microsoft分析器performs lemmatization instead of stemming,但是我找不到任何声称仅使用词条化词干分析器的令牌生成器或过滤器。
答案 0 :(得分:2)
要创建自定义版本的Microsoft分析器,请从给定语言的Microsoft令牌生成器开始(我们有主干和非主干版本),然后从可用令牌过滤器集中添加令牌过滤器以自定义输出令牌流。请注意,根据语言,词干标记器也可以进行词法化。
在大多数情况下,Microsoft语言分析器是Microsoft标记器,加上停用词标记过滤器和小写标记过滤器,但这取决于语言。在某些情况下,我们会进行特定于语言的字符标准化。
我们建议以上述内容为起点。然后,可以使用Analyze API来测试您的配置,以查看它是否可以为您提供所需的结果。