Question

在为PDF，HTML和其他文档编写解释器时，我们需要处理各种空白字符和其他非打印字符。 ANSI的定义很明确，但在实践中可能会找到多少其他的？一个典型的例子是ISO10646中的集群（我认为）：

&ensp;      &#8194;             en space
&emsp;  &#8195;             em space
&thinsp;    &#8201;             thin space
&zwnj;  &#8204;     ‌   ‌   zero width non-joiner
&zwj;   &#8205;     ‍   ‍   zero width joiner
&lrm;   &#8206;     ‎   ‎   left-to-right mark
&rlm;   &#8207;     ‏   ‏   right-to-left mark

（由于显而易见的原因，字符不会出现在上面！）。

Answer 1

Unicode将长期与我们一起，数量不断增加。如果HTML或XML文档是用UTF-8编码的Unicode编写的，那么您应该期望出现任何和所有这些文档。

在Unicode（Unicode字符数据库）中，以下代码点被定义为空格：

U+0009–U+000D (control characters, containing Tab, CR and LF)
U+0020 SPACE
U+0085 NEL (control character next line)
U+00A0 NBSP (NO-BREAK SPACE)
U+1680 OGHAM SPACE MARK
U+180E MONGOLIAN VOWEL SEPARATOR
U+2000–U+200A (different sorts of spaces)
U+2028 LS (LINE SEPARATOR)
U+2029 PS (PARAGRAPH SEPARATOR)
U+202F NNBSP (NARROW NO-BREAK SPACE)
U+205F MMSP (MEDIUM MATHEMATICAL SPACE)
U+3000 IDEOGRAPHIC SPACE

Answer 2

在开发领域，至少还有一个（最常用于Web开发）

&nbsp;  // non-breaking space

但是，设计世界越多，您看到的各种空格/不可见字符就越多。发布软件通常有

space - 常规SPACE
en space
em space
稀薄的空间
发空间
不间断的空间
不间断的固定宽度空间
第六空间
四分之一空间
第三空间
标点符号空间
冲洗空间
数字空间
...

有多少非打印字符是常用的？

2 个答案: