如何将日文字符分类为汉字或片假名或平假名?

时间:2011-03-22 08:19:13

标签: sorting unicode sqlite cjk icu

我正在研究一些需要对日语进行排序的应用程序。

日本人的排序需要将片假名和汉字转换为平假名,然后根据UTF-8代码进行排序。

平假名,片假名和汉字字符应组合在一起并按平假名等效“拼写”排序。注:使用平假名“字母” - a,i,u,e,o,ka,ki,ku, ke,ki等。

现在要完成这项任务,我需要:

1.将日文字符分类为汉字或片假名或平假名。

2.将片假名和汉字转换为平假名。

3.应用基于语音(平假名)进行排序的算法。

应用程序数据库采用UTF-8格式。

现在执行第1步: “将日文字符分类为汉字或片假名或平假名。” ,

我想知道在Sqlite3,QT,ICU或任何其他可以提供Unicode字符的软件包中是否存在用于C或C ++编程语言的API?

在Unicode的基础上,我们可以轻松地对日文字符进行分类。

如果我错了,请纠正我?

1 个答案:

答案 0 :(得分:2)

  1. 正如您所说,日语字符可以使用Unicode轻松分类到组中。这是微不足道的。

  2. 将片假名转换为平假名也是微不足道的,因为存在一对一的映射。您可以通过Kakasi

  3. 将汉字转换为平假名
  4. 排序可以先转换为平假名。然而,这是一个穷人的类型,因为许多汉字是同音异音词(相同的声音,不同的汉字)。因此,您应该在通过平假名进行转换和排序之前对汉字进行排序。

  5. 您没有说明为什么需要以这种方式进行排序。如果您告诉我们有关您的申请的更多信息,我们可以提出更好的建议。