应用错误收集

时间：2018-04-24 03:25:36

标签： unicode unicode-normalization

我正在编写一个脚本来创建包含用于大小写折叠等的unicode字符的表。

我能够很好地提取这些表，但我正在努力弄清楚要使用哪些属性来获取规范化的代码点。

在Unicode附件＃44中，我能找到的最接近的属性组是NF（C | D | KC | KD）_QC，用于判断字符串是否已经规范化。

并且它仍然没有列出实际构建表所需的值。

我在这里做错了什么？

编辑：我正在编写一个C库来处理unicode，这不是一个简单的完成，写在python问题中，我正在尝试编写自己的规范化（技术组合/分解）函数。 / p>

Edit2：分解属性是“dm”，但是组合和Kompatibility变体呢？

答案 0 :(得分：2)

ucdxml目录中的Unicode XML数据库不具有权威性。我建议使用ucd目录中的权威文件。你需要

如果尖括号中有分解类型，则它是兼容性映射（NFKD），否则它是规范映射。组合是根据分解映射定义的。有关详细信息，请参阅Unicode标准的section 3.11 Normalization Forms和UAX #15。