用于文本匹配的Unicode替换字符

时间:2010-06-06 21:08:13

标签: unicode special-characters

我对unicode文本源(所有正确的编码)有一些乐趣,我想匹配名称。经典问题,一个来源正确,另一个有更扁平的名称:

“Elbląg”与“Elblag”(见角色a)

为了更好的匹配,我怎样才能“展平”±,á,or或à? ascii匹配表是否有unicode?

1 个答案:

答案 0 :(得分:2)

尝试

>>> unicodedata.normalize('NFKD', u'Elbląg').encode('ascii', 'ignore')
'Elblag'