应用错误收集

Unicode中没有哪些字符？

时间：2011-06-08 09:27:40

标签： unicode localization character-encoding

我听说尽管某些地区的人群在日常生活中写过，但Unicode标准中并没有出现某些字符。特别是我听说过最近通过组装现有字符部分制作的中文名字，但我找不到任何参考。

例如，下面的字符对于5000万人来说很常见，但它是not in Unicode：

enter image description here

是否有这样的字符列表？（列出图像等字符的图像或网站）

6 个答案:

答案 0 :(得分：6)

嗯，Unicode中没有大量的内容（尽管仍在添加新字符）。

一些例子：

由于Han Unification，Unicode对来自不同语言的几个相似字符使用一个代码点。人们不同意这些角色是否真的“相同”;如果你认为他们应该分开代表，那么这些单独的陈述可以说是“缺失”（虽然这是一个哲学问题）。
类似地，许多语言（尤其是亚洲语言）有时会有一个字符/字形的变体。 “具有多个表示的一个字符”（=一个代码点）和“不同的字符”（=不同的代码点）之间的区别在某种程度上是任意的，因此存在某些人认为替代变体“缺失”的情况（例如，具有汉字字符）。
缺少许多历史悠久且很少使用的角色。
不包括许多旧/历史脚本，例如Demotic。实际上，有一项专门用于在Unicode中包含更多脚本的计划，Script Encoding Initiative（SEI）。

W3C还有一个关于此主题的页面Missing characters and glyphs，有更多解释。

答案 1 :(得分：6)

另外：这是unicode.org的unsupported scripts

列表

答案 2 :(得分：2)

Here's a little W3C article关于如何处理丢失的unicode字符。

Here's a PDF document关于unicode 4.1中的一些缺失字符

And here's a little neat unicode navigator.

希望这有点帮助。

答案 3 :(得分：1)

标准的符号部分有大量字符，这些字符很烦人，不包括在内。

请参阅http://xahlee.org/comp/unicode_arrows.html的“缺少对称版本”部分，了解存在的一堆箭头符号，但仅限于某些方向。有些只是愚蠢的。例如，有⥂，⥃和⥄，但没有最后一个的正确指向版本。

你可以从http://en.wikipedia.org/wiki/Unicode_subscripts_and_superscripts看到，他们明显地选择了以超级和子脚本形式支持哪些字母。例如，它们包括下标元音a，e，o，甚至schwa（ə），但不包括i，这将是非常有用的，因为它是数学排版中的常见下标。看看维基百科文章了解更多细节（你需要安装一个unicode字体，因为至少在撰写本文时他们没有明确列出常规的ascii等价物），但基本上他们选择了大约一半的拉丁字母看似对于每个大写和小写的超级和子脚本字符，随机选择。

此外，不存在许多便于使用unicode构建形状的符号。

答案 4 :(得分：1)

它不支持双唇颤音字母，转为beta，反向为k

答案 5 :(得分：0)

很自然，Unicode无法完全赶上一些新的表意字符或一些很少使用的符号。

但我不太明白这个问题背后的原因。您可以绘制任何您想要的随机符号，它很可能不会是Unicode标准字符。

或者只是好奇心？