在python2.7中,我得到了一个像s = u'\xe5\x86\x80AC5S'
这样的unicode。实际上,它是一个包含汉字的车牌,我已经测试了'\ xe5 \ x86 \ x80',它是UTF-8二进制文件。
我有一个使用s = s.encode('latin-1')
的解决方案,然后s =='\ xe5 \ x86 \ x80AC5S',该解决方案解释了U + 0000和U + 00FF之间的代码点映射到ISO 8859中的相同字节值-1或Latin 1编码。
但是现在,我混淆了Unicode存储模式。当我想一个s = u'somedata'时,我的想法得到defaultencoing(),我的想法是utf-8,我认为utf-8中s转换的unicode,我的意思是s以十六进制存储而不是U + 0000。 我在哪里理解错?请帮忙!