用Python编码和解码德语文本

时间:2018-06-11 09:42:26

标签: python character-encoding decode encode

我正在处理德语文本,我想编码和解码以摆脱一些字符。例如,说我有

text = 'führt - möglich'

我想获得:

corrected_text = 'führt - möglich'

如果我使用textcp1252进行编码并使用utf8解码结果,我会得到:

text.encode('cp1252').decode('utf8')
# 'führt - möglich'

第一个单词是OK,但在第二个单词中仍有一些要替换的字符。我可以第二次编码/解码来获取

text.encode('cp1252').decode('utf8').encode('cp1252').decode('utf8', 'ignore')
# 'fhrt - möglich'

第二个单词现在可以,但第一个单词缺少ü

我可以编码并使用此debugging tablestr.replace()来解决上述问题。但是,我想知道:给定text,有没有办法使用encodedecode来获取corrected_text

0 个答案:

没有答案