FAST ESP中的字符串排序算法

时间:2014-08-19 10:10:15

标签: sorting fast-esp microsoft-search-server

是否有人知道FAST ESP引擎版本中的排序逻辑。 5.3?如何处理特殊字符以及如何对日文和中文单词进行排序?

以下是搜索结果的前8位,按升序排序:

門
¿ c
¿ c¡a «n »c ‹e ›r § ¶~#15
¿ c¡a «n »c ‹e ›r § ¶~#44
¿ c¡a «n »c ‹e ›r § ¶~#45
§ word document4
門 他の他の
門 他の他の 2

是否意味着从排序范围中省略了个字符?

这些是按降序排列的搜索结果的前10位:

他の門そ他の門
の他
他の
そ他の門そ他の
そ他の門門門
そ他他そ
そ
そ他
СЌРЅРІР»гЃќд»
марцпиорыв

看来最后两个带有西里尔符号的结果被正确处理,但是当结果放在そ他そ他他そ之间时,会出现歧义。

1 个答案:

答案 0 :(得分:1)

排序按拉丁语和希腊语的字母顺序处理,但对于JKC语言,您需要正确设置文档配置才能处理这些语言。您还需要为这些语言安装标记化。 Microsoft提供的修补程序包括每种语言的标记化和字典。我认为这对于验证集合中的搜索引擎和文档是否正确配置非常有用。