Question

我在FAST ESP服务器上运行搜索应用程序。现在我遇到了字符规范化的问题。

我想要的是搜索'wurth'并在'würth'中获得成功。

我尝试在esp / etc / tokenizer / tokenization.xml

中配置以下内容

 <normalizationlist name="German to Norwegian">
   <normalization description="German u with diaeresis, to Norwegian u">
      <input>x75</input> 
      <output>xFC</output> 
      <output>x75</output>
   </normalization>
  </normalizationlist>

但是对于cours来说，这将把你们全部转化为ü，这是无用的。

如何以正确的方式配置？

Answer 1

解决方法是将每个“特殊字符”规范化为相同的“普通字符”;

ö - ＆gt; Ø ø - ＆gt; Ø å - ＆gt;一个 ä - ＆gt;一个 æ - ＆gt;一个

这有点耗时，但它确实有效！

Answer 2

阅读Avanced物流指南。它包含一个关于字符规范化的章节。按照指南中的步骤操作时，所有特殊字符都将被视为普通字符。所以搜索über会得到与搜索优步时相同的结果。

Answer 3

您也可以安装MS支持提供的自定义词典，然后可以提供每种语言的词典。因此，如果您安装德语，那么搜索引擎将了解您要搜索的内容，具有您的意思。安装完字典后，可以启用搜索查询。另外，请不要忘记使用适当的字符编码正确设置搜索模式以支持多语言。如果集合中的文档没有使用正确的字符编码编制索引，那么您在标记化和查询结束时所做的任何工作都是无用的。

快速ESP字符规范化

3 个答案: