将包含COMBINING DIAERESIS的文本转换为utf-8

时间:2011-04-21 18:03:35

标签: python unicode utf-8

我们有一些包含德国变音符号的文字,例如使用例如'a'+ COMBINING DIAERESIS ($ cc $ 88)。

知道如何将这样的文本正确转换为utf8吗?

1 个答案:

答案 0 :(得分:4)

首先,如果它还不是unicode,那么解码它。第二,unicodedata.normalize()。第三,编码。