如何挑选unicodes并将它们保存在utf-8数据库中

时间:2013-06-25 16:59:20

标签: python django unicode utf-8 pickle

我有一个数据库(mysql),我想存储腌制数据。

数据可以是例如字典,其可以包含unicode,例如

data = {1 : u'é'}

,数据库(mysql)在utf-8中。

当我腌制时,

import pickle
pickled_data = pickle.dumps(data)
print type(pickled_data) # returns <type 'str'>

生成的pickled_data是一个字符串。

当我尝试将其存储在数据库中时(例如在文本字段中),这可能会导致问题。特别是,我在某个时候得到了

UnicodeDecodeError "'utf8' codec can't decode byte 0xe9 in position X"

尝试在数据库中保存pickled_data时。这是有道理的,因为pickled_data可以有非utf-8字符。我的问题是如何在utf-8数据库中存储pickled_data?

我看到两个可能的候选人:

  1. 将pickle.dump的结果编码为utf-8并存储它。当我想pickle.load时,我必须解码它。

  2. 以二进制格式存储pickle字符串(如何?),这会强制所有字符都在ascii中。

  3. 我的问题是,从长远来看,我没有看到选择其中一个选项的后果。由于这种变化已经需要一些努力,我会被要求就这个问题征求意见,要求最终更好的候选人。

    (P.S。这在Django

    中很有用

1 个答案:

答案 0 :(得分:15)

Pickle数据是不透明的二进制数据,即使您使用协议版本0:

>>> pickle.dumps(data, 0)
'(dp0\nI1\nV\xe9\np1\ns.'

当您尝试将其存储在TextField中时,Django会尝试将该数据解码为UTF8以存储它;这是失败的原因,因为这不是UTF-8编码数据;它是二进制数据:

>>> pickled_data.decode('utf8')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/Users/mj/Development/venvs/stackoverflow-2.7/lib/python2.7/encodings/utf_8.py", line 16, in decode
    return codecs.utf_8_decode(input, errors, True)
UnicodeDecodeError: 'utf8' codec can't decode byte 0xe9 in position 9: invalid continuation byte

解决方案是尝试将其存储在TextField中。改为使用BinaryField

  

存储原始二进制数据的字段。它仅支持bytes分配。请注意,此字段的功能有限。例如,无法在BinaryField值上过滤查询集。

您有一个bytes值(Python 2字符串是字节字符串,在Python 3中重命名为bytes。)

如果您坚持将数据存储在文本字段中,请将其明确解码为latin1; Latin 1编解码器将字节一对一映射到Unicode代码点:

>>> pickled_data.decode('latin1')
u'(dp0\nI1\nV\xe9\np1\ns.'

并确保在再次打开颜色之前再次编码

>>> encoded = pickled_data.decode('latin1')
>>> pickle.loads(encoded)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/Users/mj/Development/Libraries/buildout.python/parts/opt/lib/python2.7/pickle.py", line 1381, in loads
    file = StringIO(str)
UnicodeEncodeError: 'ascii' codec can't encode character u'\xe9' in position 9: ordinal not in range(128)
>>> pickle.loads(encoded.encode('latin1'))
{1: u'\xe9'}

请注意,如果您将此值转到浏览器并再次返回文本字段,则浏览器可能已替换该数据中的字符。例如,Internet Explorer会将\n个字符替换为\r\n,因为它假定它处理文本。

在任何情况下都不允许您接受来自网络连接的pickle数据,因为that is a security hole waiting for exploitation