Question

我一直在用中文测试字母排序（如果我可以这么称呼的话）。这是Excel对一些示例单词进行排序的方法：

啊＆LT;波＆LT;词＆LT;的＆LT;俄＆LT;佛＆LT;歌＆LT;和＆LT;及＆LT;课＆LT;了＆LT;馍＆LT;呢＆LT;票＆LT;气＆LT;日＆LT ;四＆LT;特＆LT;瓦＆LT;喜＆LT;以及LT;只

0＆lt; 2＆lt; 85＆lt;＆lt;＆lt;版本＆lt;标记＆lt;成员＆lt;错误＆lt;导出＆lt;导航＆lt; Excel文件＆lt;访问＆lt;分类＆lt;更改＆lt;规则＆lt; HTML＆lt ;基本＆LT;记录＆LT;可选＆LT;快捷方式＆LT;类别＆LT;历史记录＆LT;密码＆LT;目录＆LT;内联＆LT;内容＆LT;讨论＆LT;文件＆LT;页面＆LT;只读

这是Collections.sort(list, simplified_chinese_collator_comparator)（第一个以粗体显示的冒犯字符）的结果：

啊＆LT;波＆LT;词＆LT;的＆LT;俄＆LT;佛＆LT;歌＆LT;和＆LT;及＆LT;课＆LT;了＆LT;呢＆LT;票＆LT;气＆LT;日＆LT;四＆LT ;特＆LT;瓦＆LT;喜＆LT;以及LT;只＆LT;的馍

！＆lt; @＆lt; 0＆lt; 0＆lt; 0＆lt; 0＆lt;＆lt; 2＆lt;＆lt;＆nbsp;＆nbsp;＆nbsp;＆nbsp;＆nbsp;＆nbsp;＆nbsp;＆nbsp;＆nbsp;＆lt;＆lt;＆nbsp;＆nbsp;＆lt;＆lt;

我对中文一无所知。有谁知道为什么Collator输出它不同，或者基于什么？

是否还有其他基于语言的排序库？

Answer 1

Java 6或7中没有Collator，它将按照与第一个样本相同的顺序对中文进行排序。

public static void main(String... args) {
    String text1 = "啊<波<词<的<俄<佛<歌<和<及<课<了<馍<呢<票<气<日<四<特<瓦<喜<以<只";
    findLocaleForSortedOrder(text1);
    String text2 = "啊<波<词<的<俄<佛<歌<和<及<课<了<呢<票<气<日<四<特<瓦<喜<以<只<馍";
    findLocaleForSortedOrder(text2);
}

private static void findLocaleForSortedOrder(String text) {
    System.out.println("For " + text + " found...");
    String[] preSorted = text.split("<");
    for (Locale locale : Collator.getAvailableLocales()) {
        String[] sorted = preSorted.clone();
        Arrays.sort(sorted, Collator.getInstance(locale));
        if (Arrays.equals(preSorted, sorted))
            System.out.println("Locale " + locale + " has the same sorted order");
    }
    System.out.println();
}

打印

For 啊<波<词<的<俄<佛<歌<和<及<课<了<馍<呢<票<气<日<四<特<瓦<喜<以<只 found...

For 啊<波<词<的<俄<佛<歌<和<及<课<了<呢<票<气<日<四<特<瓦<喜<以<只<馍 found...
Locale zh_CN has the same sorted order
Locale zh has the same sorted order
Locale zh_SG has the same sorted order

Answer 2

为何与众不同？因为有几种不同的方法可以排序表意字符甚至整个单词。困在我脑海中的是：

按行程数
使用拉丁音译然后“自然地”命名（当然根据中文特定的规则）

还有其他方法，例如Unicode Technical Report #35提到其中一些（更多是巧合，没有必要），但你必须有足够的时间来完成它。

为了回答你的问题，为什么这些排序顺序不同，这只是因为Java包含自己的排序规则而且它不依赖于操作系统的排序规则（就像Excel那样）。这些规则可能有所不同。您可能还想尝试ICU，这是Java中类和规则的来源（通常比JDK领先一步）。

按字母顺序排列的中文 - java.text.Collator

2 个答案:

按字母顺序排列的中文 - java.text.Collat​​or

2 个答案:

按字母顺序排列的中文 - java.text.Collator