什么取决于角色最终被考虑在特定的“组合”?

时间:2011-07-30 02:04:27

标签: php regex unicode utf-8 pcre

在Unicode中,可以在不同的“合成”中考虑一个字符。

例如,代码点为à的字符U+00E0,它也由两个代码点组成:U+0061结合重音符U+0300

离开了以下问题:

什么取决于角色最终被考虑在特定的作品中? 我的意思是:键盘?编码?复制粘贴文本?

我知道用\X元字符识别的方法,但我希望有人能够解开我的疑惑。 感谢。

1 个答案:

答案 0 :(得分:2)

最终由操作系统决定当你按键时它们存储哪些代码点,尽管存在规范化形式(特别是NFC)形式的惯例:

http://en.wikipedia.org/wiki/Unicode_equivalence#Normalization

复制和粘贴复制代码点,而不是字母概念(Grapheme是一个不太模糊的术语,因为字符可以表示字形和代码点)。

如果你要从其他字符集转换为Unicode,那么转换映射将决定你最终得到的代码点,它几乎总是匹配源字符集如何编码复合字符 - 源字符集有一个使用UMLAUT的LATIN A的单个代码点,然后也是Unicode。