是1字节的UTF-8"序列"有一个特别的名字?

时间:2016-01-26 19:11:45

标签: utf-8

Per Wikipedia,在UTF-8中,多字节序列中的第一个字节称为前导字节,序列中的后续字节称为 continuation字节

我知道这些可能不是"官方"名称(事实上,UTF-8 RFC没有为不同的八位字节类型提供任何名称),但根据维基百科和我目前的研究,这些似乎是常用的名称。

对于既不是前导字节也不是连续字节的字节(即代码点< 128),是否有一个常用的特殊名称?

我正在记录一些设计用于UTF-8编码字符串的相当复杂的代码,并且我希望确保使用标准术语以避免混淆。

2 个答案:

答案 0 :(得分:2)

有些人会将UTF-8的前7位称为 ASCII

答案 1 :(得分:2)

我希望看到一个定义,我无法找到一个特殊术语(超出已经提到的ASCII)。我唯一可以补充的是,一个字节的“序列”是一个合法的序列,并且一个字节被排除在称为前导字节之外。

Unicode标准的参考:

  • §3.9 (PDF, pg. 119)

      

    代码单元序列可以由单个代码单元组成。

  • §2.5 (PDF, pg. 37)

      

    为UTF-8代码单元序列的第一个或前导元素保留了一系列8位代码单元值,以及完全分离的8位代码单元值范围保留用于此类序列的后续或尾随元素;