不可还原的石墨烯簇在unicode

时间:2015-08-13 10:06:08

标签: unicode text-segmentation

我认为“用户感知角色”(以下称为UPC)迭代器在unicode库中非常有用。 UPC我的意思是unicode standard annex 29中讨论的意义,这是用户认为是一个字符,但可能在unicode中表示为代码点或字形集群。由于我通常使用拉丁语言,所以我总是提出一些例子,例如“我想将ü作为一个UPC处理,无论UPC是字形集群还是单个代码点”。

反对UPC迭代器(或字形集群迭代器,请选择)计数器的同事“您可以规范化到NFC,然后使用代码点迭代”,并且“没有用于字形集群迭代的用例”。

我一直在考虑以拉丁为中心的用例,这可能无法很好地转换为unicode Universe - 就像我正在做终端输出,我想将列填充到N列宽度,所以我想知道字符串中有多少个UPC ......

我想我想知道的是:

  1. 是否存在无法归一化为单一代码点的有意义的字形集群?西方用户是否有可能发生的事情?我假设韩国语或阿拉伯语就是这种情况,但我不得不承认在那里完全无知。
  2. 是否有其他语言提供UPC / grapheme集群迭代/操作?是否有Unicode规范的任何建议?

2 个答案:

答案 0 :(得分:1)

目前还不清楚UAX #29如何解答您的问题:

  1. 许多这样的字素集群,即使对于仅使用拉丁字母的语言,因为并非所有组合标记都具有包含所有其他字母/表格的成分 - 例如,{ {3}}。 UAX#29中的表1a有几个非拉丁语的例子。

  2. 这是UAX#29的目的:将字形集群操作推广到Unicode支持的所有语言。

答案 1 :(得分:0)

(1)西方用户中有可能会发生这种情况吗?

??(竖起大拇指+浅肤色)。可能会发生:在北半球易于访问表情符号的应用程序上的任何地方。

(2)是否有其他语言提供UPC /字形群集的迭代/操作?

Rust的unicode_segmentation板条箱(库)。