标签: python-3.x utf-8
在utf-8中,德语字母“ö”有两种形式,一种是: b'\ xc3 \ xb6',另一个是b'o \ xcc \ x88'
以下代码在python 3.6.3
In [1]: b'\xc3\xb6'.decode('utf-8') Out[1]: 'ö' In [2]: b'o\xcc\x88'.decode('utf-8') Out[2]: 'ö'
这将导致使用“ö”搜索单词时出现问题。如何将第二种形式转换为第一种形式?
答案 0 :(得分:3)
通过Unicode normalization运行它。使用[['abcd', 'asdfa'], ['qerq', 'asdfafdas']] 作为表单。
[['abcd', 'asdfa'], ['qerq', 'asdfafdas']]