命名约定小于utf32

时间:2013-07-22 13:30:01

标签: unicode

Unicode UTF-32值我们可以调用代码点,但我想即使这是错误的,因为单个代理本身就是一个代码点。 UTF-8可以称为多字节或多字节。但是UTF-16UCS-2呢?它们不是完全多字节的,因为它们处理2个字节,我认为多字更多的是MS命名方案。

用于描述可由字节组成的UTF-32个代码点的更准确的名称是什么,如UTF-8UTF-16中的单词?

1 个答案:

答案 0 :(得分:0)

我相信你要找的术语是'代码单元'。

代码点只是可以在字符集中分配字符的整数值。

代码单元是序列中使用的固定宽度整数表示,用于表示编码文本。 UTF-8,UTF-16和UTF-32都是编码,分别使用8,16和32位代码单元。

UTF-32在三者中是独一无二的,因为它的代码单元值始终是所表示的Unicode数据的代码点值。


'multi-byte'可以适当地用于参考UTF-16。 (并且'Unicode'可用于引用UTF-8;微软对术语的使用在两个方面都具有误导性。)


  

单个代理本身就是一个代码点。

Unicode将[U + D800-U + DFFF]范围内的代码点分类为代理。但是,这些代码点从未如此使用。它们是保留的,不能使用,因为UTF-16不能代表此范围内的代码点;为了表示这样的代码点,UTF-16将使用[0xD800-0xDFFF]范围内的代码单元,但UTF-16使用此范围内的代码单元值来表示U + FFFF以上的代码点,因此不能使用它们来表示代码[U + D800-U + DFFF]范围内的点。