Question

我正在解析的JSON文件中的一个值是Wroc\u00c5\u0082aw。如何将此字符串转换为产生“Wrocław”的unicode对象（在这种情况下，这是正确的解码）？

Answer 1

看起来生成JSON采用UTF-8编码文本的任何进程，并将其误认为是Latin-1编码文本。要修复错误，请反向运行相同的过程：

>>> u'Wroc\u00c5\u0082aw'.encode('iso-8859-1').decode('utf-8')
u'Wroc\u0142aw'
>>> import unicodedata
>>> unicodedata.name(u'\u0142')
'LATIN SMALL LETTER L WITH STROKE'

Answer 2

看起来你的JSON没有正确的编码，因为它既没有\ u00c5也没有\ u0082aw产生你在任何编码中所期望的字符。

但您可能会尝试将此值编码为UTF8或UTF16

阅读JSON：什么编码是“\ u00c5 \ u0082”？如何将它转换为unicode对象？

2 个答案: