阅读JSON:什么编码是“\ u00c5 \ u0082”?如何将它转换为unicode对象?

时间:2013-10-03 14:10:33

标签: python json unicode

我正在解析的JSON文件中的一个值是Wroc\u00c5\u0082aw。如何将此字符串转换为产生“Wrocław”的unicode对象(在这种情况下,这是正确的解码)?

2 个答案:

答案 0 :(得分:2)

看起来生成JSON采用UTF-8编码文本的任何进程,并将其误认为是Latin-1编码文本。要修复错误,请反向运行相同的过程:

>>> u'Wroc\u00c5\u0082aw'.encode('iso-8859-1').decode('utf-8')
u'Wroc\u0142aw'
>>> import unicodedata
>>> unicodedata.name(u'\u0142')
'LATIN SMALL LETTER L WITH STROKE'

答案 1 :(得分:1)

看起来你的JSON没有正确的编码,因为它既没有\ u00c5也没有\ u0082aw产生你在任何编码中所期望的字符。

但您可能会尝试将此值编码为UTF8或UTF16