我正在处理德语文本,我想编码和解码以摆脱一些字符。例如,说我有
text = 'führt - möglich'
我想获得:
corrected_text = 'führt - möglich'
如果我使用text
对cp1252
进行编码并使用utf8
解码结果,我会得到:
text.encode('cp1252').decode('utf8')
# 'führt - möglich'
第一个单词是OK,但在第二个单词中仍有一些要替换的字符。我可以第二次编码/解码来获取
text.encode('cp1252').decode('utf8').encode('cp1252').decode('utf8', 'ignore')
# 'fhrt - möglich'
第二个单词现在可以,但第一个单词缺少ü
。
我可以编码并使用此debugging table和str.replace()
来解决上述问题。但是,我想知道:给定text
,有没有办法使用encode
和decode
来获取corrected_text
?