快速ESP字符规范化

时间:2009-10-08 12:44:33

标签: character-encoding tokenize fast-esp

我在FAST ESP服务器上运行搜索应用程序。现在我遇到了字符规范化的问题。

我想要的是搜索'wurth'并在'würth'中获得成功。

我尝试在esp / etc / tokenizer / tokenization.xml

中配置以下内容
 <normalizationlist name="German to Norwegian">
   <normalization description="German u with diaeresis, to Norwegian u">
      <input>x75</input> 
      <output>xFC</output> 
      <output>x75</output>
   </normalization>
  </normalizationlist>

但是对于cours来说,这将把你们全部转化为ü,这是无用的。

如何以正确的方式配置?

3 个答案:

答案 0 :(得分:1)

解决方法是将每个“特殊字符”规范化为相同的“普通字符”;

ö - &gt; Ø ø - &gt; Ø å - &gt;一个 ä - &gt;一个 æ - &gt;一个

这有点耗时,但它确实有效!

答案 1 :(得分:0)

阅读Avanced物流指南。它包含一个关于字符规范化的章节。按照指南中的步骤操作时,所有特殊字符都将被视为普通字符。所以搜索über会得到与搜索优步时相同的结果。

答案 2 :(得分:0)

您也可以安装MS支持提供的自定义词典,然后可以提供每种语言的词典。因此,如果您安装德语,那么搜索引擎将了解您要搜索的内容,具有您的意思。安装完字典后,可以启用搜索查询。另外,请不要忘记使用适当的字符编码正确设置搜索模式以支持多语言。如果集合中的文档没有使用正确的字符编码编制索引,那么您在标记化和查询结束时所做的任何工作都是无用的。