在Unicode中,可以在不同的“合成”中考虑一个字符。
例如,代码点为à
的字符U+00E0
,它也由两个代码点组成:U+0061
结合重音符U+0300
。
离开了以下问题:
什么取决于角色最终被考虑在特定的作品中? 我的意思是:键盘?编码?复制粘贴文本?
我知道用\X
元字符识别的方法,但我希望有人能够解开我的疑惑。
感谢。
答案 0 :(得分:2)
最终由操作系统决定当你按键时它们存储哪些代码点,尽管存在规范化形式(特别是NFC)形式的惯例:
http://en.wikipedia.org/wiki/Unicode_equivalence#Normalization
复制和粘贴复制代码点,而不是字母概念(Grapheme是一个不太模糊的术语,因为字符可以表示字形和代码点)。
如果你要从其他字符集转换为Unicode,那么转换映射将决定你最终得到的代码点,它几乎总是匹配源字符集如何编码复合字符 - 源字符集有一个使用UMLAUT的LATIN A的单个代码点,然后也是Unicode。