实际使用中最常见的非BMP Unicode字符是什么?

时间:2011-04-06 13:36:04

标签: unicode cjk codepoint surrogate-pairs astral-plane

根据您的经验,到目前为止,哪些Unicode字符,代码点,BMP(基本多语言平面)之外的范围是最常见的?这些是需要UTF-8中的4个字节或UTF-16中的代理项。

我希望答案是在名称中使用的中文和日文字符,但不包括在最广泛的CJK多字节字符集中,但是在我最常用的项目上,英文维基词典,我们发现Gothic alphabet到目前为止更为常见。

更新

我已经编写了几个软件工具来扫描整个维基百科上的非BMP字符,我惊讶地发现,即使在日语维基百科中,哥特字母也是最常见的。在中文维基百科中也是如此,但也有许多中文字符被使用了50或70次,包括“”,“”和“”。

3 个答案:

答案 0 :(得分:88)

表情符号现在是迄今为止最常见的非BMP角色。 ,也就是所谓的U + 1F602 FACE WITH WEARS OF JOY,是Twitter公共流中最常见的一种。它比波浪号更频繁发生!

答案 1 :(得分:58)

很棒的问题!

答案是数学字母。去年12月,我对整个PubMed Open Access语料库进行了扫描,并为其中的星体字符提供了这些数据。

下图中的第一个数字是我在整个语料库中找到的每个给定代码点的副本数。首先,为了给你一个关于相对频率的概念,这里是该语料库中的前十个trans-ASCII代码点:

 2663710 U+002013 ‹–›  GC=Pd    EN DASH
 1065594 U+0000A0 ‹ ›  GC=Zs    NO-BREAK SPACE
 1009762 U+0000B1 ‹±›  GC=Sm    PLUS-MINUS SIGN
  784139 U+002212 ‹−›  GC=Sm    MINUS SIGN
  602377 U+002003 ‹ ›  GC=Zs    EM SPACE
  528576 U+0003BC ‹μ›  GC=Ll    GREEK SMALL LETTER MU
  519669 U+0003B2 ‹β›  GC=Ll    GREEK SMALL LETTER BETA
  512312 U+0003B1 ‹α›  GC=Ll    GREEK SMALL LETTER ALPHA
  491842 U+00200A ‹ ›  GC=Zs    HAIR SPACE
  462505 U+0000B0 ‹°›  GC=So    DEGREE SIGN

现在这里是trans-BMP代码点,按降序频率排序:

     544 U+01D49E ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL C
     450 U+01D4AF ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL T
     385 U+01D4AE ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL S
     292 U+01D49F ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL D
     285 U+01D4B3 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL X
     262 U+01D4A9 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL N
     258 U+01D4AB ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL P
     254 U+01D4A2 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL G
     185 U+01D49C ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL A
     178 U+01D53C ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL E
     137 U+01D4AA ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL O
      56 U+01D4A5 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL J
      48 U+01D4A6 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL K
      44 U+01D4B1 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL V
      43 U+01D4B2 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL W
      42 U+01D4B4 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL Y
      41 U+01D4B5 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL Z
      35 U+01D4B0 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL U
      30 U+01D4AC ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL Q
      23 U+01D54A ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL S
      21 U+01D539 ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL B
      19 U+01D5A7 ‹›  GC=Lu    MATHEMATICAL SANS-SERIF CAPITAL H
      18 U+01D517 ‹›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL T
      15 U+01D4C3 ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL N
      14 U+01D535 ‹›  GC=Ll    MATHEMATICAL FRAKTUR SMALL X
      13 U+01D4BF ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL J
      11 U+01D540 ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL I
       9 U+01D465 ‹›  GC=Ll    MATHEMATICAL ITALIC SMALL X
       9 U+01D4CE ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL Y
       9 U+01D538 ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL A
       8 U+01D4C2 ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL M
       8 U+01D54D ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL V
       7 U+01D4B6 ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL A
       7 U+01D4BE ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL I
       7 U+01D4CC ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL W
       7 U+01D516 ‹›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL S
       7 U+01D4BE ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL I
       7 U+01D4CC ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL W
       7 U+01D516 ‹›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL S
       4 U+01D4CF ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL Z
       4 U+01D53B ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL D
       4 U+01D54B ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL T
       3 U+01D4BB ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL F
       3 U+01D4CA ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL U
       3 U+01D507 ‹›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL D
       3 U+01D542 ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL K
       3 U+01D546 ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL O
       2 U+01D4BD ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL H
       2 U+01D4C5 ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL P
       2 U+01D505 ‹›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL B
       2 U+01D50E ‹›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL K
       2 U+01D541 ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL J
       2 U+01D543 ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL L
       2 U+100002 ‹›  GC=Co    <private use character>
       1 U+01D4B8 ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL C
       1 U+01D4C1 ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL L
       1 U+01D53D ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL F
       1 U+01D53E ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL G
       1 U+01D54C ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL U
       1 U+01D6A4 ‹›  GC=Ll    MATHEMATICAL ITALIC SMALL DOTLESS I
       1 U+01D7D9 ‹›  GC=Nd    MATHEMATICAL DOUBLE-STRUCK DIGIT ONE

真的希望我知道他们用U + 100002做什么。 :(

如果这些内容未显示在您的浏览器中,则应安装George Douros’s Symbola font。它也包含所有有趣的Unicode 6.0.0代码点。

答案 2 :(得分:9)

对我来说,Mathematical Alphanumeric Symbols用于使用OpenType字体进行数学排版,例如Cambria Math。