我正在解析的JSON文件中的一个值是Wroc\u00c5\u0082aw
。如何将此字符串转换为产生“Wrocław”的unicode对象(在这种情况下,这是正确的解码)?
答案 0 :(得分:2)
看起来生成JSON采用UTF-8编码文本的任何进程,并将其误认为是Latin-1编码文本。要修复错误,请反向运行相同的过程:
>>> u'Wroc\u00c5\u0082aw'.encode('iso-8859-1').decode('utf-8')
u'Wroc\u0142aw'
>>> import unicodedata
>>> unicodedata.name(u'\u0142')
'LATIN SMALL LETTER L WITH STROKE'
答案 1 :(得分:1)
看起来你的JSON没有正确的编码,因为它既没有\ u00c5也没有\ u0082aw产生你在任何编码中所期望的字符。
但您可能会尝试将此值编码为UTF8或UTF16