如何“规范化”python 3 unicode字符串

时间:2017-11-03 10:58:43

标签: python-3.x utf-8 python-unicode

我需要比较2个字符串。 {PDF <1}}是从PDF文件中提取的(使用pdfminer / chardet),aa是键盘输入。如何规范化第一个字符串以进行复合?

bb

1 个答案:

答案 0 :(得分:1)

您使用unicodedata.normalize进行规范化:

>>> aa = b'\xc4\x81'.decode('utf8')
>>> bb = b'a\xcc\x84'.decode('utf8')
>>> aa
'ā'
>>> bb
'ā'
>>> aa == bb
False
>>> import unicodedata as ud
>>> aa == ud.normalize('NFC',bb)
True