Question

我有一个看起来像这样的字符串。

st = '/M\xe4rzen'

我想将其转换为unicode。我怎样才能做到这一点？我试过了：

st.decode('utf-8')
unicode(t, 'utf-8')

原始文件是utf-8编码的，但我似乎无法获得字符串的unicode表示。

Answer 1

您的数据不是UTF8编码的;更有可能是使用Latin-1编码：

>>> print st.decode('latin1')
/Märzen

调用.decode()就足够了，也调用unicode()。