我想检查字符串是否已经是NFC格式。目前我这样做:
unicodedata.normalize('NFC', s) == s
我正在为大量的字符串做这个,所以我想要高效。上述方法似乎很浪费。它转换为NFC,然后进行字符串比较。
有更有效的方法吗?我考虑过了:
len(unicodedata.normalize('NFC', s)) == len(s)
这避免了字符串比较。但我不确定这是否总是正确的。如果NFC标准化始终改变非NFC字符串的长度,则此方法有效。这是一个有效的假设吗?
还有其他想法吗?
答案 0 :(得分:5)
规范化不一定会改变字符串的长度。例如,在NFC之后,'Ω'
(U + 2126)变为'Ω'
(U + 03A9)。
Unicode数据库中有一个规范化"quick check" property来测试一个字符是否已经规范化,但遗憾的是Python的unicodedata
模块没有公开它。但是,如果字符串已经规范化,unicodedata.normalize()
确实使用此属性来避免执行任何额外的工作 - 它只返回输入字符串。
要访问此属性,您需要自己从Unicode字符数据库中编译表,或者使用带有Python绑定的更广泛的Unicode库(如PyICU)。
答案 1 :(得分:0)
从 Python 3.8 开始,它公开了所需的检查。引用自 Python 文档:
<块引用>unicodedata.is_normalized(form, unistr)
返回 Unicode 字符串 unistr 是否为标准形式 'form'。表单的有效值为“NFC”、“NFKC”、“NFD”和“NFKD”。
New in version 3.8.
我希望所有内容都在 NFC 中,但是检查 NFD(因此我只能转换那些)不起作用:所有 NFC 字符串都通过了 NFD 检查!我的解决方案是测试字符串是否不是 NFC,如果是,则进行转换。