Question

我的字符串是Niá»‡m Bá»“ TÃ¡t (Thiá»n sÆ° Nháº¥t Háº¡nh)，我想将其解码为Niệm Bồ Tát (Thiền sư Nhất Hạnh)。我看到该网站可以执行http://www.enderminh.com/minh/utf8-to-unicode-converter.aspx

我开始尝试使用Python

mystr = '09. BÃ¡t NhÃ£ TÃ¢m Kinh'
mystr.decode('utf-8')

但实际上它不正确，因为原始字符串是utf-8但是字符串show不是我期望的结果。

注意：这是越南文字。

如何解决这个案子？那是Windows Unicode还是什么？如何在这里检测编码。

Answer 1

我不确定您可以对这些数据做些什么，但对于您在原始帖子中的示例，这有效：

>>> mystr = '09. BÃ¡t NhÃ£ TÃ¢m Kinh'
>>> s = mystr.decode('utf8').encode('latin1').decode('utf8')
>>> s
u'09. B\xe1t Nh\xe3 T\xe2m Kinh'
>>> print(s)
09. Bát Nhã Tâm Kinh

Answer 2

唯一帮助我破解西里尔字符串的事情 - https://github.com/LuminosoInsight/python-ftfy

这个模块几乎可以解决所有问题，并且比在线解码器工作得更好。

>>> from ftfy import fix_encoding
>>> mystr = '09. BÃ¡t NhÃ£ TÃ¢m Kinh'
>>> fix_encoding(mystr)
'09. Bát Nhã Tâm Kinh'

可以使用pip install ftfy

轻松安装

Answer 3

尝试：

str.encode('ascii', 'ignore').decode('utf-8')

您正在以ASCII格式编码字符串/忽略错误并以UTF-8解码。这可以消除重音，但这是一种方法。

如何修复Python中破坏的utf-8编码？

3 个答案: