Question

我是Python初学者，我有一个utf-8问题。

我有一个utf-8字符串，我想用ASCII替换替换所有德语变音符号（在德语中，u-umlaut'ü'可能被重写为'ue'）。

u-umlaut有unicode代码点252，所以我尝试了这个：

>>> str = unichr(252) + 'ber'
>>> print repr(str)
u'\xfcber'
>>> print repr(str).replace(unichr(252), 'ue')
u'\xfcber'

我希望最后一个字符串为u'ueber'。

我最终想做的是用'ue'替换文件中的所有u-umlaut：

import sys
import codecs      
f = codecs.open(sys.argv[1],encoding='utf-8')
for line in f: 
    print repr(line).replace(unichr(252), 'ue')

感谢您的帮助！（我正在使用Python 2.3。）

Answer 1

repr(str)会返回str的引用版本，在打印出来时，您可以将其作为Python键入以获取字符串。因此，它是一个字面上包含\xfcber的字符串，而不是包含über的字符串。

您可以使用str.replace(unichr(252), 'ue')将ü替换为ue。

如果你需要获得结果的引用版本，虽然我不相信你应该需要它，你可以将整个表达式包装在repr中：

repr(str.replace(unichr(252), 'ue'))

Answer 2

我认为以更简单的方式进行操作是最容易和更清楚的，直接使用unicode表示os'ü'比unichr（252）更好。

>>> s = u'über'
>>> s.replace(u'ü', 'ue')
u'ueber'

没有必要使用repr，因为这将打印字符串的'Python表示'，您只需要呈现可读字符串。

您还需要在.py文件的前缀处包含以下行（如果它尚不存在），以告知文件的编码

#-*- coding: UTF-8 -*-

已添加：当然，声明的编码必须与文件的编码相同。请检查一下可能是一些问题（例如，我在Windows上遇到Eclipse问题，因为它默认将文件写为cp1252。它也应该是系统的相同编码，可以是utf-8，或拉丁语-1或其他。

另外，不要使用str作为变量的定义，因为它是Python库的一部分。你以后可能会遇到问题。

（我正在尝试Python 2.6，我认为在Python 2.3中结果是一样的）

Answer 3

您可以避免所有源文件编码内容及其问题。使用Unicode名称，然后它非常明显地在做什么，并且可以在任何地方读取和修改代码。

我不知道任何一种语言，其中唯一的重音拉丁字母是小写的u-with-umlaut-aka-diaeresis，所以我添加了代码来循环翻译表，假设你我需要它。

# coding: ascii

translations = (
    (u'\N{LATIN SMALL LETTER U WITH DIAERESIS}', u'ue'),
    (u'\N{LATIN SMALL LETTER O WITH DIAERESIS}', u'oe'),
    # et cetera
    )

test = u'M\N{LATIN SMALL LETTER O WITH DIAERESIS}ller von M\N{LATIN SMALL LETTER U WITH DIAERESIS}nchen'

out = test
for from_str, to_str in translations:
    out = out.replace(from_str, to_str)
print out

输出：

Moeller von Muenchen

Answer 4

我将定义一个特殊字符字典（要映射），然后使用translate方法。

line = 'Ich möchte die Qualität des Produkts überprüfen, bevor ich es kaufe.'

spcial_char_map = {ord('ä'):'ae', ord('ü'):'ue', ord('ö'):'oe', ord('ß'):'ss'}
print(line.translate(spcial_char_map))

您将得到以下结果：

Ich moechte die Qualitaet des Produkts ueberpruefen, bevor ich es kaufe.

如何在Python中搜索和替换utf-8特殊字符？

4 个答案: