标记日语字符串并转换为平假名

时间:2014-07-15 10:00:20

标签: c++ objective-c macos tokenize cjk

我正在使用字符串标记器和转换API将汉字字符转换为平假名。 查询中的代码(What is the replacement for Language Analysis framework's Morpheme analysis deprecated APIs)将大多数汉字字符转换为平假名,但这些API无法转换具有3-4个字符的汉字字。 像 -

a)现人神被转换为拉丁语 - ' gen ren shen'并且在平假 - 'げんじんしん' 而应该是 - 拉丁语 - ' Arahitogami'在平假名 - 'あらひとがみ'

b)安本丹被转换为拉丁语 - ' an ben dan'并且在平假名 - 'やすもとまこと' 然而它应该是 - 在拉丁语中作为 - ' Yasumoto makoto'在平假名 - 'あんぽんたん'

我的主要目的是获取给定日文文本的红宝石文本。我不能使用lang分析框架,因为它在64位中不可用。

有什么建议吗?是否有其他API来执行此类字符串转换?

1 个答案:

答案 0 :(得分:0)

因此,在这两种情况下,您的API都使用onyomi但不应该使用onyomi。所以我假设它只是猜测" 3个或更多字符?在大多数情况下,onyomi应该更合适,所以我使用它#34;。听起来像你的问题需要一个真正的字典,你可以download

名称(b))应该仍然是个问题。我不知道计算机应该如何从kanjis获得正确的名称,因为即使是日本本土人也有时会失败。 jisho.org甚至找不到安本丹的单一名称。

(顺便说一句,你把你的平假名放在b)和拉丁语中forんんたんたん'。我还不能和我的代表一起写评论,所以我要离开这里)