sorting - 如何将日文字符分类为汉字或片假名或平假名？

时间：2011-03-22 08:19:13

标签： sorting unicode sqlite cjk icu

我正在研究一些需要对日语进行排序的应用程序。

日本人的排序需要将片假名和汉字转换为平假名，然后根据UTF-8代码进行排序。

平假名，片假名和汉字字符应组合在一起并按平假名等效“拼写”排序。注：使用平假名“字母” - a，i，u，e，o，ka，ki，ku， ke，ki等。

现在要完成这项任务，我需要：

1.将日文字符分类为汉字或片假名或平假名。

2.将片假名和汉字转换为平假名。

3.应用基于语音（平假名）进行排序的算法。

应用程序数据库采用UTF-8格式。

现在执行第1步： “将日文字符分类为汉字或片假名或平假名。” ，

我想知道在Sqlite3，QT，ICU或任何其他可以提供Unicode字符的软件包中是否存在用于C或C ++编程语言的API？

在Unicode的基础上，我们可以轻松地对日文字符进行分类。

如果我错了，请纠正我？

答案 0 :(得分：2)

正如您所说，日语字符可以使用Unicode轻松分类到组中。这是微不足道的。
将片假名转换为平假名也是微不足道的，因为存在一对一的映射。您可以通过Kakasi
排序可以先转换为平假名。然而，这是一个穷人的类型，因为许多汉字是同音异音词（相同的声音，不同的汉字）。因此，您应该在通过平假名进行转换和排序之前对汉字进行排序。

您没有说明为什么需要以这种方式进行排序。如果您告诉我们有关您的申请的更多信息，我们可以提出更好的建议。