Per Wikipedia,在UTF-8中,多字节序列中的第一个字节称为前导字节,序列中的后续字节称为 continuation字节
我知道这些可能不是"官方"名称(事实上,UTF-8 RFC没有为不同的八位字节类型提供任何名称),但根据维基百科和我目前的研究,这些似乎是常用的名称。
对于既不是前导字节也不是连续字节的字节(即代码点< 128),是否有一个常用的特殊名称?
我正在记录一些设计用于UTF-8编码字符串的相当复杂的代码,并且我希望确保使用标准术语以避免混淆。
答案 0 :(得分:2)
有些人会将UTF-8的前7位称为 ASCII 。
答案 1 :(得分:2)
我希望看到一个定义,我无法找到一个特殊术语(超出已经提到的ASCII)。我唯一可以补充的是,一个字节的“序列”是一个合法的序列,并且一个字节不被排除在称为前导字节之外。
Unicode标准的参考:
代码单元序列可以由单个代码单元组成。
为UTF-8代码单元序列的第一个或前导元素保留了一系列8位代码单元值,以及完全分离的8位代码单元值范围保留用于此类序列的后续或尾随元素;