我需要引用带有URI的Unicode字符。 IANA引用后列出了多个方案和命名空间,但未提及有关Unicode字符标识符的任何内容。有谁知道这样的事情是否存在?
我希望找到像
这样的东西unicode://U+0394
urn:unicode://0394
http://unicode.org/unicode/0394
表示希腊大写字母ΔΔ。
如果有人想知道,这适用于像应用程序这样的语义网,它使用URI作为概念的标识符,包括Unicode字符的概念。
答案 0 :(得分:3)
我担心一般来说,没有URL或URN来引用Unicode字符的权威信息。在Unicode标准中,有关单个字符的信息部分位于所谓的字符数据库(主要是特定格式的纯文本文件)中,部分位于代码表(PDF文件)中。它们都没有提供指向个性的方法。此外,这些信息并非详尽无遗:对标准分散的个别人物信息有重要评论。
Decodeunicode网站具有可单独寻址的项目,例如
http://www.decodeunicode.org/en/u+0394
但其信息内容变化很大,而且通常非常有限。它不是官方的,它目前只包含Unicode 5.0。
Fileformat.info网站更加系统化,但它也是非官方的。它基本上仅限于正式属性和可从它们派生的数据,以及从代码图表中提取的注释,以及在Windows中键入字符的说明,以及有关字体支持的信息 - 但这非常多!例如:
答案 1 :(得分:1)
[编辑]:找到了符合您需要的URL:http://unicode.org/cldr/utility/character.jsp?a=1F40F
。
好吧,有一个URL引用了Unicode数据库上的权威信息,即使它没有描述(如另一个答案所述)有关一个特定字符的所有信息。
您具有以下URL,指向最新的Unicode数据库。这是现有有效Unicode字符的简单列表。缺少一些即将出现的字符(㋿),您应该期望它是可变的。
内容如下所示,按原样使用不太实用。
$ grep -ai kangaroo UnicodeData.txt -C 7
1F991;SQUID;So;0;ON;;;;;N;;;;;
1F992;GIRAFFE FACE;So;0;ON;;;;;N;;;;;
1F993;ZEBRA FACE;So;0;ON;;;;;N;;;;;
1F994;HEDGEHOG;So;0;ON;;;;;N;;;;;
1F995;SAUROPOD;So;0;ON;;;;;N;;;;;
1F996;T-REX;So;0;ON;;;;;N;;;;;
1F997;CRICKET;So;0;ON;;;;;N;;;;;
1F998;KANGAROO;So;0;ON;;;;;N;;;;;
1F999;LLAMA;So;0;ON;;;;;N;;;;;
1F99A;PEACOCK;So;0;ON;;;;;N;;;;;
1F99B;HIPPOPOTAMUS;So;0;ON;;;;;N;;;;;
1F99C;PARROT;So;0;ON;;;;;N;;;;;
1F99D;RACCOON;So;0;ON;;;;;N;;;;;
1F99E;LOBSTER;So;0;ON;;;;;N;;;;;
1F99F;MOSQUITO;So;0;ON;;;;;N;;;;;
您可以使用这样的后缀构建一个骇人的“基于散列”的名称空间,但这绝对是非标准的。
答案 2 :(得分:1)
由于这也被标记为 semantic-web,我将尝试选择易于(且永久)取消引用且不会被误认为是描述该字符的文档的 URI:data:
方案。这不仅可以指 Unicode 中的字符,还可以指任何编码,也可以指其任何字符串。
data:;charset=utf-8,%CE%94
尝试打开此 URI 应该会生成一个 text/plain
文件,其中包含单个字符作为其内容。
如果系统接受 IRI(就像许多语义 Web 应用程序一样),则可以直接包含该字符:
data:;charset=utf-8,Δ
这映射到与上图相同的 URI,您的浏览器可能会直接转换它。在这种情况下,必须指定 UTF-8,因为没有为其他编码定义映射。