通过文化定义Unicode范围的策略

时间:2014-10-27 16:34:14

标签: unicode

我是Unicode新手,已经要求查看一些翻译文本,迭代翻译的所有字符,并确定所有字符是否对目标文化(语言和位置)有效。

例如,如果我正在将文档从英语翻译成希腊语,我想检测希腊语翻译中是否有任何英语/ ASCII“A”,并将其报告为错误。翻译记忆库中的数据损坏可能就是这种情况。

文化中是否存在任何现有的Unicode字符分组?或者是否存在开发此类分组的现有策略?我看到(http://www.unicode.org/charts/)有一些字符分组。但看起来这并不是我一眼就能找到的。

是否存在类似“以下是西班牙语的有效Unicode字符 - 西班牙语:[某些Unicode范围]”或“以下是俄语的有效Unicode字符 - 俄罗斯:[某些Unicode范围] “ 或者是否有人制定了定义这些策略?

如果这不是提出这个问题的正确位置,我欢迎任何方向可以提出问题。

1 个答案:

答案 0 :(得分:1)

这是CLDR(公共区域设置数据存储库)处理的内容。它不是Unicode标准的一部分,但它是由Unicode Consortium管理的活动和资源。 LDML规范定义了语言环境数据的格式。 Character Elements定义了一些字符集:“main / standard”,“auxiliary”,“index”和“punctuation”。

data for Greek仅包含希腊字母和一些基本标点符号。与CLDR的所有此类数据一样,这在很大程度上是主观的。即使CLDR流程旨在根据共识生成经过良好审核的数据,但实际情况也不尽相同。可以说,在普通的希腊文本中,拉丁字母并不少见,特别是在技术领域。例如,安培的国际符号是拉丁字母“A”;公斤的符号是“kg”,用拉丁字母表示,即使它的是用希腊语写的希腊字母。

因此,无论您如何进行分析,希腊文中拉丁语“A”的出现都可能被标记为可疑,但不是错误。

作为ICU的一部分,有C / C ++和Java库实现对CLDR数据的访问。