我需要比较2个字符串。 {PDF <1}}是从PDF文件中提取的(使用pdfminer / chardet),aa
是键盘输入。如何规范化第一个字符串以进行复合?
bb
答案 0 :(得分:1)
您使用unicodedata.normalize进行规范化:
>>> aa = b'\xc4\x81'.decode('utf8')
>>> bb = b'a\xcc\x84'.decode('utf8')
>>> aa
'ā'
>>> bb
'ā'
>>> aa == bb
False
>>> import unicodedata as ud
>>> aa == ud.normalize('NFC',bb)
True