一组不具有相同NFD和NFC编码的unicode字符

时间:2014-01-27 23:42:12

标签: unicode

不共享相同NFC和NFD编码的unicode字符集是什么?

例如日本,在NFD和NFC中都是你们的'\ u65e5 \ u672c'

然而のご赞同をいただきました

在NFD:u'\ u306e \ u3053 \ u3099 \ u8cdb \ u540c \ u3092 \ u3044 \ u305f \ u305 \ u305 \ u304d \ u307e \ u3057 \ u305f'

NFC中的

:u'\ u306e \ u3054 \ u8cdb \ u540c \ u3092 \ u3044 \ u305 \ u305 \ u304d \ u307e \ u3057 \ u305f'

(NFD和NFC的定义:https://en.wikipedia.org/wiki/Unicode_normalization#Normal_forms

1 个答案:

答案 0 :(得分:1)

通过首先分解字符串,然后重新组合一些字符序列来执行NFC。因此,NFC和NFD的结果不同的单个字符集是在UCD中具有分解映射但不是excluded from composition的每个字符。这些字符也称为primary composites

请注意,这仅适用于单个字符。如果你正在考虑多个字符的序列,事情会变得复杂得多。例如,当单独应用时,NFC和NFD形成的两个字符的序列在应用于整个序列时可以具有不同的形式。