Question

如果我执行以下声明：

string.Compare("mun", "mün", true, CultureInfo.InvariantCulture)

结果为'-1'，表示'mun'的数值低于'mün'。

但是，如果我执行此声明：

string.Compare("Muntelier, Schweiz", "München, Deutschland", true, CultureInfo.InvariantCulture)

我得到'1'，表示'Muntelier，Schewiz'应该排在最后。

这是比较中的错误吗？或者，更有可能的是，在排序包含重音

的字符串时，我应该考虑一个规则

这是一个问题的原因是，我正在对一个列表进行排序，然后进行手动二进制过滤，这意味着每个字符串都以“xxx”开头。

以前我使用的是Linq'Fhere'方法，但现在我必须使用另一个人编写的这个自定义函数，因为他说它表现得更好。

但是自定义函数似乎没有考虑.NET具有的“unicode”规则。因此，如果我告诉它过滤'mün'，它就找不到任何项目，即使列表中的项目以'mun'开头。

这似乎是因为重音字符的排序不一致，具体取决于重音字符后面的字符。

好的，我想我已经解决了这个问题。

在过滤之前，我会根据每个字符串的第一个 n 字母进行排序，其中 n 是搜索字符串的长度。

Answer 1

有一项打破平局的算法，请参阅http://unicode.org/reports/tr10/

解决复杂问题语言敏感的排序，a 多级比较算法是采用。比较两个单词，for 例如，最重要的特征是基本字符：如 A和B之间的差异重点差异通常是忽略，如果有任何差异在基本字母中。案例差异（大写与小写），是通常被忽略，如果有的话基础或口音的差异。标点符号是可变的。在一些标点符号的情况像基本字符一样对待。在其他情况，应该被忽略如果有任何基础，口音或案例差异。也可能有一个最终，打破平局，如果根本没有其他差异在字符串中，（规范化的）代码使用点顺序。

所以，“Munt ......”和“Münc......”按字母顺序不同，并根据“t”和“c”排序。

然而，“mun”和“mün”在字母上是相同的（“u”等于“ü”在丢失的语言中）所以比较字符代码

Answer 2

看起来重音字符只用于某种“打破平局”的情况 - 换句话说，如果字符串相等。

以下是一些示例代码：

using System;
using System.Globalization;

class Test
{
    static void Main()
    {
        Compare("mun", "mün");
        Compare("muna", "münb");
        Compare("munb", "müna");
    }

    static void Compare(string x, string y)
    {
        int result = string.Compare(x, y, true, 
                                   CultureInfo.InvariantCulture));

        Console.WriteLine("{0}; {1}; {2}", x, y, result);
    }
}

（我也试过在“n”之后添加一个空格，看它是否在单词边界上完成 - 它不是。）

结果：

mun; mün; -1
muna; münb; -1
munb; müna; 1

我怀疑各种复杂的Unicode规则是正确的 - 但我对它们知之甚少。

至于你是否需要考虑到这一点......我不希望如此。这是怎么回事？

Answer 3

据我所知，它仍然有些一致。使用CultureInfo.InvariantCulture进行比较时，将变音字符ü视为非重音字符u。

由于第一个示例中的字符串显然不相等，结果不会是0而是-1（这似乎是默认值）。在第二个示例中， Muntelier 是最后一个，因为 t 在字母表中跟随 c 。

我在MSDN中找不到任何解释这些规则的明确文档，但我找到了

string.Compare("mun", "mün", CultureInfo.InvariantCulture,  
    CompareOptions.StringSort);

和

string.Compare("Muntelier, Schweiz", "München, Deutschland", 
    CultureInfo.InvariantCulture, CompareOptions.StringSort);

给出了期望的结果。

无论如何，我认为你最好根据当前用户的文化（如果可能的话）对特定文化进行排序。

为什么string.Compare似乎不一致地处理重音字符？

3 个答案: