base64在js中编码,在python中解码。 Unicode问题

时间:2015-12-27 17:52:12

标签: python unicode encoding utf-8 python-2.x

我在js中有以下字符串。

*"form-uploads/2015 Perry's Awärds Letter.jpg"*

它有一个ä符号。

当我使用btoa(在chrome中)在js中对其进行编码时,我得到以下信息: “Zm9ybS11cGxvYWRzLzIwMTUgUGVycnkncyBBd + RyZHMgTGV0dGVyLmpwZw ==”

当我尝试在python中解码时,我得到以下内容:

In[16]: base64.b64decode('Zm9ybS11cGxvYWRzLzIwMTUgUGVycnkncyBBd+RyZHMgTGV0dGVyLmpwZw==')
Out[16]: "form-uploads/2015 Perry's Aw\xe4rds Letter.jpg"

所以ä迷路了,如果我尝试为utf-8解码该字符串,我会收到错误。

In[18]: base64.b64decode('Zm9ybS11cGxvYWRzLzIwMTUgUGVycnkncyBBd+RyZHMgTGV0dGVyLmpwZw==').decode('utf-8')
UnicodeDecodeError: 'utf8' codec can't decode byte 0xe4 in position 28: invalid continuation byte

解码后i如何在python代码中获得正确的utf-8 ä

2 个答案:

答案 0 :(得分:4)

您需要使用latin1编码进行解码,然后打印Unicode:

>>> print base64.b64decode(u'Zm9ybS11cGxvYWRzLzIwMTUgUGVycnkncyBBd+RyZHMgTGV0dGVyLmpwZw==').decode('latin1')
form-uploads/2015 Perry's Awärds Letter.jpg

答案 1 :(得分:1)

尝试latin1,它不能是utf8,因为在utf8中没有1字节字符,MSB设置为1(如\ xe4)。

base64.b64decode('Zm9ybS11cGxvYWRzLzIwMTUgUGVycnkncyBBd+RyZHMgTGV0dGVyLmpwZw==').decode('latin1')

btoa一般也不适用于unicode:

https://developer.mozilla.org/en/docs/Web/API/WindowBase64/Base64_encoding_and_decoding#The_Unicode_Problem