有多少有效的utf8字符?

时间:2011-11-02 16:50:34

标签: utf-8

我知道这有点模糊,所以对于语境来说,把它想象成“你可以推特的角色”,或类似的东西。我的问题是,支持utf8的浏览器或服务可以解析多少个有效的unicode字符,这样utf8浏览器就可以复制并粘贴它而不会出现任何问题。

我想我不想要的是完整的字符空间,因为我知道很多它是为命令字符或保留字符保留的,不会显示(除非我是错误的!)。

1 个答案:

答案 0 :(得分:5)

UTF-8不是重要因素,因为所有标准Unicode编码(UTF-8,UTF-16,UTF-32)都以不同的方式编码相同的字符空间。

根据您的解释,我发现您不仅仅需要1,112,064个有效的Unicode代码点吗?

Unicode 6.0和ISO / IEC 10646:2010定义了109,449个字符,但其中一些是您称之为“控制字符”的字符。哪些属于或不属于该类别取决于您的计算方式。复制和粘贴可能会导致某些字符被视为彼此相同,或完全忽略,具体取决于操作系统和执行复制和粘贴的程序。

但是,由于Unicode是向前兼容的,因此某些系统将正确保留尚未分配的字符。毕竟,仅仅因为你正在运行Windows XP并且你复制并粘贴一个文档,其中包含直到2009年未标准化的字符并不意味着你希望它们消失。通过这种思维方式,可能会有一百万左右的额外可能角色,尽管它们的视觉外观在某些地方可能无法区分。