utf-8 German Umlaut有两种不同的字节码表示

时间:2017-12-21 16:05:43

标签: python-3.x utf-8

在utf-8中,德语字母“ö”有两种形式,一种是: b'\ xc3 \ xb6',另一个是b'o \ xcc \ x88'

以下代码在python 3.6.3

In [1]: b'\xc3\xb6'.decode('utf-8')
Out[1]: 'ö'

In [2]: b'o\xcc\x88'.decode('utf-8')
Out[2]: 'ö'

这将导致使用“ö”搜索单词时出现问题。如何将第二种形式转换为第一种形式?

1 个答案:

答案 0 :(得分:3)

通过Unicode normalization运行它。使用[['abcd', 'asdfa'], ['qerq', 'asdfafdas']] 作为表单