在为PDF,HTML和其他文档编写解释器时,我们需要处理各种空白字符和其他非打印字符。 ANSI的定义很明确,但在实践中可能会找到多少其他的?一个典型的例子是ISO10646中的集群(我认为):
    en space
    em space
    thin space
‌ ‌ zero width non-joiner
‍ ‍ zero width joiner
‎ ‎ left-to-right mark
‏ ‏ right-to-left mark
(由于显而易见的原因,字符不会出现在上面!)。
答案 0 :(得分:2)
Unicode将长期与我们一起,数量不断增加。如果HTML或XML文档是用UTF-8编码的Unicode编写的,那么您应该期望出现任何和所有这些文档。
在Unicode(Unicode字符数据库)中,以下代码点被定义为空格:
U+0009–U+000D (control characters, containing Tab, CR and LF)
U+0020 SPACE
U+0085 NEL (control character next line)
U+00A0 NBSP (NO-BREAK SPACE)
U+1680 OGHAM SPACE MARK
U+180E MONGOLIAN VOWEL SEPARATOR
U+2000–U+200A (different sorts of spaces)
U+2028 LS (LINE SEPARATOR)
U+2029 PS (PARAGRAPH SEPARATOR)
U+202F NNBSP (NARROW NO-BREAK SPACE)
U+205F MMSP (MEDIUM MATHEMATICAL SPACE)
U+3000 IDEOGRAPHIC SPACE
答案 1 :(得分:1)
在开发领域,至少还有一个(最常用于Web开发)
// non-breaking space
但是,设计世界越多,您看到的各种空格/不可见字符就越多。发布软件通常有