在Python中检查unicode字符串是否为NFC的有效方法?

时间:2015-09-01 19:35:12

标签: python unicode normalization python-unicode unicode-normalization

我想检查字符串是否已经是NFC格式。目前我这样做:

unicodedata.normalize('NFC', s) == s

我正在为大量的字符串做这个,所以我想要高效。上述方法似乎很浪费。它转换为NFC,然后进行字符串比较。

有更有效的方法吗?我考虑过了:

len(unicodedata.normalize('NFC', s)) == len(s)

这避免了字符串比较。但我不确定这是否总是正确的。如果NFC标准化始终改变非NFC字符串的长度,则此方法有效。这是一个有效的假设吗?

还有其他想法吗?

2 个答案:

答案 0 :(得分:5)

规范化不一定会改变字符串的长度。例如,在NFC之后,'Ω'(U + 2126)变为'Ω'(U + 03A9)。

Unicode数据库中有一个规范化"quick check" property来测试一个字符是否已经规范化,但遗憾的是Python的unicodedata模块没有公开它。但是,如果字符串已经规范化,unicodedata.normalize()确实使用此属性来避免执行任何额外的工作 - 它只返回输入字符串。

要访问此属性,您需要自己从Unicode字符数据库中编译表,或者使用带有Python绑定的更广泛的Unicode库(如PyICU)。

答案 1 :(得分:0)

从 Python 3.8 开始,它公开了所需的检查。引用自 Python 文档:

<块引用>

unicodedata.is_normalized(form, unistr)

返回 Unicode 字符串 unistr 是否为标准形式 'form'。表单的有效值为“NFC”、“NFKC”、“NFD”和“NFKD”。

New in version 3.8.

我希望所有内容都在 NFC 中,但是检查 NFD(因此我只能转换那些)不起作用:所有 NFC 字符串都通过了 NFD 检查!我的解决方案是测试字符串是否不是 NFC,如果是,则进行转换。