string.translate()在python中使用unicode数据

时间:2012-07-27 16:49:10

标签: python unicode dictionary

我有3个API将json数据返回到3个字典变量。我从字典中取一些值来处理它们。我在列表valuelist中读取了我想要的具体值。其中一个步骤是从中删除标点符号。我通常使用string.translate(None, string.punctuation)进行此过程,但因为字典数据是unicode,我得到错误:

    wordlist = [s.translate(None, string.punctuation)for s in valuelist]
TypeError: translate() takes exactly one argument (2 given)

有解决方法吗?通过编码unicode或替换string.translate

5 个答案:

答案 0 :(得分:32)

translate方法在Unicode对象上的工作方式与在字节串对象上的工作方式不同:

>>> help(unicode.translate)

S.translate(table) -> unicode

Return a copy of the string S, where all characters have been mapped
through the given translation table, which must be a mapping of
Unicode ordinals to Unicode ordinals, Unicode strings or None.
Unmapped characters are left untouched. Characters mapped to None
are deleted.

所以你的例子会变成:

remove_punctuation_map = dict((ord(char), None) for char in string.punctuation)
word_list = [s.translate(remove_punctuation_map) for s in value_list]

但请注意,string.punctuation仅包含ASCII标点符号。完整的Unicode有更多的标点字符,但这完全取决于你的用例。

答案 1 :(得分:6)

我注意到不推荐使用string.translate。由于您要删除标点符号,而不是实际翻译字符,因此可以使用re.sub函数。

    >>> import re

    >>> s1="this.is a.string, with; (punctuation)."
    >>> s1
    'this.is a.string, with; (punctuation).'
    >>> re.sub("[\.\t\,\:;\(\)\.]", "", s1, 0, 0)
    'thisis astring with punctuation'
    >>>

答案 2 :(得分:3)

在这个版本中你可以相对地给别人写一个字母

def trans(to_translate):
    tabin = u'привет'
    tabout = u'тевирп'
    tabin = [ord(char) for char in tabin]
    translate_table = dict(zip(tabin, tabout))
    return to_translate.translate(translate_table)

答案 3 :(得分:1)

Python re模块允许使用a function as a replacement argument,它应该使用Match对象并返回合适的替换。我们可以使用此函数来构建自定义字符转换函数:

import re

def mk_replacer(oldchars, newchars):
    """A function to build a replacement function"""
    mapping = dict(zip(oldchars, newchars))
    def replacer(match):
        """A replacement function to pass to re.sub()"""
        return mapping.get(match.group(0), "")
    return replacer

一个例子。匹配所有小写字母([a-z]),将'h'和'i'分别翻译为'H'和'I',删除其他匹配项:

>>> re.sub("[a-z]", mk_replacer("hi", "HI"), "hail")
'HI'

如您所见,它可能与短(不完整)替换集一起使用,并且可能用于删除某些字符。

Unicode示例:

>>> re.sub("[\W]", mk_replacer(u'\u0435\u0438\u043f\u0440\u0442\u0432', u"EIPRTV"), u'\u043f\u0440\u0438\u0432\u0435\u0442')
u'PRIVET'

答案 4 :(得分:1)

当我偶然发现同样的问题时,西蒙的回答是帮助我解决问题的答案,我想到了一个更简单的例子,只是为了澄清:

from collections import defaultdict

然后对于翻译,说你想删除'@'和'\ r'字符:

remove_chars_map = defaultdict()
remove_chars_map['@'] = None
remove_chars_map['\r'] = None

new_string = old_string.translate(remove_chars_map)

一个例子:

  

old_string =“word1 @ \ r word2 @ \ r \ n word3 @ \ r”

     

new_string =“word1 word2 word3”

     

'@'和'\ r'已删除