什么是" U \ + [0-9A-F] {4,6}"用于指定名为的Unicode字符的符号?

时间:2014-12-21 17:32:36

标签: unicode terminology

这种符号的名称是什么?例如,如果我想说出角色U + 2603 SNOWMAN,

  

雪人角色的_____是" U + 2603"。

什么应该取代_____以使陈述准确(但使其准确而不是字面意思" U + 2603"它说了别的东西,比如&#34 ; 2603"或" 9731")?

Unicode的维基百科页面描述了编写U +然后是一些十六进制数字的惯例,而没有给它起一个名字。

2 个答案:

答案 0 :(得分:2)

符号没有正式名称。 Unicode standard,第7节,在第2.4节中说:

  

当引用Unicode标准中的代码点时,通常   实践是用它们表示的数值来引用它们   十六进制,带有“U +”前缀。 (见附录A,符号   约定。)

附录A说:

  

在运行文本时,单个Unicode代码点表示为U + n ,   其中 n 是四到六个十六进制数字,使用数字0-9和   大写字母A-F(分别为10到15)。领先的零   被省略,除非代码点少于四个   十六进制数字 - 例如,U + 0001,U + 0012,U + 0123,U + 1234,   U + 12345,U + 102345。

     
  • U + 0416是名为西里尔字母大写字母的字符的Unicode代码点。
     

可以省略U +   表格简洁或表示范围时。

因此,与官方名称最接近的是“U + n 符号”。但它不是一个名字;它只是描述的一部分, n 是占位符。

在表示法中,“U +”部分只是通知并表明以下数字将被解释为十六进制表示法中的代码点。所以你可以说“雪人角色的代码点是十六进制的2603”或“雪人角色的代码点是U + 2603”。

很少需要区分符号2603和U + 2603。您只需根据实际情况使用哪一种更合适,并在必要时进行解释。但是这里是一个需要进行区分以及如何进行区分的示例:在Microsoft Office Word中,您可以通过以十六进制输入其代码编号然后按 Alt <来输入Unicode字符。 KBD> X ;但是,如果前面的字符是字母A-F,a-f,X或x或数字0-9,则需要在代码编号前加上两个字符“U +”或“u +”。 (请注意,符号的任何名称都没有多大帮助,特别是因为通常不知道和理解名称。)

答案 1 :(得分:1)

严格地说,填补空白的术语是code point

  

雪人角色的代码点是“U + 2603”。

此术语首先用于维基百科文章this section中的Unicode:

  

在文本处理中,Unicode的作用是为每个字符提供唯一的代码点 - 数字,而不是字形。

它与“U +”表示法之间的联系是a little further down

  

通常,通过写入“U +”后跟其十六进制数来引用Unicode代码点。对于基本多语言平面(BMP)中的代码点,使用四位数字(例如,字符LATIN CAPITAL LETTER X的U + 0058);对于BMP之外的代码点,根据需要使用五位或六位数字(例如字符LANGUAGE TAG为U + E0001,字符PRIVATE USE CHARACTER-10FFFD为U + 10FFF)。

但是,符号本身没有名称,可能是因为它不需要名称。它只是一种以书面形式表示代码点的方式。我在网上找到的唯一可以引用符号的文档简称为“U + nnnn符号”或类似的东西。即使是Unicode规范也没有直接引用该符号;它只是在引用代码点时使用它。

如果“U + 2603”改为“2603”,那么我可能会说:

  

Snowman角色的Unicode十六进制值为2603。

同样为“9731”:

  

Snowman角色的Unicode十进制值是9731。