我正在编写一个脚本来创建包含用于大小写折叠等的unicode字符的表。
我能够很好地提取这些表,但我正在努力弄清楚要使用哪些属性来获取规范化的代码点。
在Unicode附件#44中,我能找到的最接近的属性组是NF(C | D | KC | KD)_QC,用于判断字符串是否已经规范化。
并且它仍然没有列出实际构建表所需的值。
我在这里做错了什么?
编辑:我正在编写一个C库来处理unicode,这不是一个简单的完成,写在python问题中,我正在尝试编写自己的规范化(技术组合/分解)函数。 / p>
Edit2:分解属性是“dm”,但是组合和Kompatibility变体呢?
答案 0 :(得分:2)
ucdxml
目录中的Unicode XML数据库不具有权威性。我建议使用ucd
目录中的权威文件。你需要
如果尖括号中有分解类型,则它是兼容性映射(NFKD),否则它是规范映射。组合是根据分解映射定义的。有关详细信息,请参阅Unicode标准的section 3.11 Normalization Forms和UAX #15。