有多少非打印字符是常用的?

时间:2009-10-26 21:39:25

标签: html pdf whitespace

在为PDF,HTML和其他文档编写解释器时,我们需要处理各种空白字符和其他非打印字符。 ANSI的定义很明确,但在实践中可能会找到多少其他的?一个典型的例子是ISO10646中的集群(我认为):

                     en space
                 em space
                   thin space
‌  ‌     ‌   ‌   zero width non-joiner
‍   ‍     ‍   ‍   zero width joiner
‎   ‎     ‎   ‎   left-to-right mark
‏   ‏     ‏   ‏   right-to-left mark

(由于显而易见的原因,字符不会出现在上面!)。

2 个答案:

答案 0 :(得分:2)

Unicode将长期与我们一起,数量不断增加。如果HTML或XML文档是用UTF-8编码的Unicode编写的,那么您应该期望出现任何和所有这些文档。

在Unicode(Unicode字符数据库)中,以下代码点被定义为空格:

U+0009–U+000D (control characters, containing Tab, CR and LF)
U+0020 SPACE
U+0085 NEL (control character next line)
U+00A0 NBSP (NO-BREAK SPACE)
U+1680 OGHAM SPACE MARK
U+180E MONGOLIAN VOWEL SEPARATOR
U+2000–U+200A (different sorts of spaces)
U+2028 LS (LINE SEPARATOR)
U+2029 PS (PARAGRAPH SEPARATOR)
U+202F NNBSP (NARROW NO-BREAK SPACE)
U+205F MMSP (MEDIUM MATHEMATICAL SPACE)
U+3000 IDEOGRAPHIC SPACE

答案 1 :(得分:1)

在开发领域,至少还有一个(最常用于Web开发)

   // non-breaking space

但是,设计世界越多,您看到的各种空格/不可见字符就越多。发布软件通常有

  • space - 常规SPACE
  • en space
  • em space
  • 稀薄的空间
  • 发空间
  • 不间断的空间
  • 不间断的固定宽度空间
  • 第六空间
  • 四分之一空间
  • 第三空间
  • 标点符号空间
  • 冲洗空间
  • 数字空间
  • ...