Python字符串清理+操作(重音字符)

时间:2009-05-30 18:36:16

标签: python regex unicode string

我有一个充满名称的数据库:

John Smith  
Scott J. Holmes  
Dr. Kaplan  
Ray's Dog  
Levi's  
Adrian O'Brien  
Perry Sean Smyre  
Carie Burchfield-Thompson  
Björn Árnason

有一些带有重音符号的外来名称需要转换为带有非重音字符的字符串。

我想将全名(在将“'”,“ - ”之类的字符剥离后)转换为用户登录,如:

john.smith  
scott.j.holmes  
dr.kaplan  
rays.dog  
levis
adrian.obrien  
perry.sean.smyre
carie.burchfieldthompson  
bjorn.arnason

到目前为止,我有:

Fullname.strip()  # get rid of leading/trailing white space
Fullname.lower() # make everything lower case


... # after bad chars converted/removed
Fullname.replace(' ', '.') # replace spaces with periods

5 个答案:

答案 0 :(得分:12)

看看这个链接[编辑]

以下是页面中的代码

def latin1_to_ascii (unicrap):
    """This replaces UNICODE Latin-1 characters with
    something equivalent in 7-bit ASCII. All characters in the standard
    7-bit ASCII range are preserved. In the 8th bit range all the Latin-1
    accented letters are stripped of their accents. Most symbol characters
    are converted to something meaningful. Anything not converted is deleted.
    """
    xlate = {
        0xc0:'A', 0xc1:'A', 0xc2:'A', 0xc3:'A', 0xc4:'A', 0xc5:'A',
        0xc6:'Ae', 0xc7:'C',
        0xc8:'E', 0xc9:'E', 0xca:'E', 0xcb:'E',
        0xcc:'I', 0xcd:'I', 0xce:'I', 0xcf:'I',
        0xd0:'Th', 0xd1:'N',
        0xd2:'O', 0xd3:'O', 0xd4:'O', 0xd5:'O', 0xd6:'O', 0xd8:'O',
        0xd9:'U', 0xda:'U', 0xdb:'U', 0xdc:'U',
        0xdd:'Y', 0xde:'th', 0xdf:'ss',
        0xe0:'a', 0xe1:'a', 0xe2:'a', 0xe3:'a', 0xe4:'a', 0xe5:'a',
        0xe6:'ae', 0xe7:'c',
        0xe8:'e', 0xe9:'e', 0xea:'e', 0xeb:'e',
        0xec:'i', 0xed:'i', 0xee:'i', 0xef:'i',
        0xf0:'th', 0xf1:'n',
        0xf2:'o', 0xf3:'o', 0xf4:'o', 0xf5:'o', 0xf6:'o', 0xf8:'o',
        0xf9:'u', 0xfa:'u', 0xfb:'u', 0xfc:'u',
        0xfd:'y', 0xfe:'th', 0xff:'y',
        0xa1:'!', 0xa2:'{cent}', 0xa3:'{pound}', 0xa4:'{currency}',
        0xa5:'{yen}', 0xa6:'|', 0xa7:'{section}', 0xa8:'{umlaut}',
        0xa9:'{C}', 0xaa:'{^a}', 0xab:'<<', 0xac:'{not}',
        0xad:'-', 0xae:'{R}', 0xaf:'_', 0xb0:'{degrees}',
        0xb1:'{+/-}', 0xb2:'{^2}', 0xb3:'{^3}', 0xb4:"'",
        0xb5:'{micro}', 0xb6:'{paragraph}', 0xb7:'*', 0xb8:'{cedilla}',
        0xb9:'{^1}', 0xba:'{^o}', 0xbb:'>>',
        0xbc:'{1/4}', 0xbd:'{1/2}', 0xbe:'{3/4}', 0xbf:'?',
        0xd7:'*', 0xf7:'/'
    }

    r = ''
    for i in unicrap:
        if xlate.has_key(ord(i)):
            r += xlate[ord(i)]
        elif ord(i) >= 0x80:
            pass
        else:
            r += i
    return r

# This gives an example of how to use latin1_to_ascii().
# This creates a string will all the characters in the latin-1 character set
# then it converts the string to plain 7-bit ASCII.
if __name__ == '__main__':
s = unicode('','latin-1')
for c in range(32,256):
    if c != 0x7f:
        s = s + unicode(chr(c),'latin-1')
print 'INPUT:'
print s.encode('latin-1')
print
print 'OUTPUT:'
print latin1_to_ascii(s)

答案 1 :(得分:5)

如果您不害怕安装第三方模块,请查看python port of the Perl module Text::Unidecode(它也是on pypi)。

该模块只是使用查找表来音译字符。我浏览了代码,看起来非常简单。所以我认为它几乎适用于任何操作系统和任何Python版本(交叉手)。它也很容易捆绑您的应用程序。

使用此模块,您不必手动创建查找表(=降低风险,因为它不完整)。

与unicode规范化技术相比,此模块的优点是:Unicode规范化不会替换所有字符。一个很好的例子是像“æ”这样的角色。 Unicode规范化将其视为“Letter,lowercase”(Ll)。这意味着使用normalize方法既不会提供替换字符,也不会提供有用的提示。不幸的是,该字符在ASCII中无法表示。所以你会得到错误。

上面提到的module在这方面做得更好。这实际上将“æ”替换为“ae”。这实际上是有用的,也是有道理的。

我见过的最令人印象深刻的事情是,它走得更远。它甚至可以正确地取代日本假名字符 。例如,它将“は”替换为“ha”。这很好。 虽然当前版本用“ti”代替“chi”代替“ち”,但这并非万无一失。所以你必须小心处理它,以获得更具异国情调的角色。

模块的用法很简单::

from unidecode import unidecode
var_utf8  = "æは".decode("utf8")
unidecode( var_utf8 ).encode("ascii")
>>> "aeha"

请注意,我直接与此模块无关。我发现它非常有用。

编辑:我提交的补丁修复了有关日本假名的错误。我只修复了我能立刻发现的那个。我可能错过了一些。

答案 2 :(得分:3)

以下功能是通用的:

import unicodedata

def not_combining(char):
        return unicodedata.category(char) != 'Mn'

def strip_accents(text, encoding):
        unicode_text= unicodedata.normalize('NFD', text.decode(encoding))
        return filter(not_combining, unicode_text).encode(encoding)

# in a cp1252 environment
>>> print strip_accents("déjà", "cp1252")
deja
# in a cp1253 environment
>>> print strip_accents("καλημέρα", "cp1253")
καλημερα

显然,您应该知道字符串的编码。

答案 3 :(得分:1)

我会做这样的事情

# coding=utf-8

def alnum_dot(name, replace={}):
    import re

    for k, v in replace.items():
        name = name.replace(k, v)

    return re.sub("[^a-z.]", "", name.strip().lower())

print alnum_dot(u"Frédrik Holmström", {
    u"ö":"o",
    " ":"."
})

第二个参数是你要替换的字符的字典,所有非a-z和。未被替换的字符将被删除

答案 4 :(得分:1)

translate方法允许您删除字符。您可以使用它删除任意字符。

Fullname.translate(None,"'-\"")

如果要删除整个字符类,可能需要使用re模块。

re.sub('[^a-z0-9 ]', '', Fullname.strip().lower(),)