SQLAlchemy Unicode难题

时间:2018-11-26 11:04:02

标签: python mysql unicode sqlalchemy

关于使用SQLAlchemy进行Unicode处理,我遇到了一个奇怪的问题。 简而言之,当我将Unicode字符串插入Unicode列时 我的MySQL数据库中,我可以轻松地将其恢复。在数据库上 但是,它存储为一个奇怪的4字节序列(不,这是 似乎与默认的'utf8mb4'没有任何关系 MySQL)

我的问题是我从另一台机器上有一个MySQL转储, 在SQL中包含直接的UTF8字符。当我尝试检索 从另一台机器导入的数据我得到了UnicodeDecodeErrors 时间。

下面,我提供了一个说明问题的最小示例。

  • utf8test.sql:设置数据库并使用Unicode创建一行  里面的字符

  • utf8test.py:使用SQLAlchemy打开数据库,插入1行  Python的想法是UTF字符,并检索两行。

事实证明,Python可以很好地检索自己插入的数据, 但是它不符合我在SQL导入脚本中输入的文字“ä”。 调查两个mysqldumped数据集的hexdumps 并且MySQL本身的二进制数据文件显示UTF字符 通过SQL插入是真正的交易(德国umlaut'ä'= UTF'c3 bc'), 而Python插入的“ä”将转换为序列 我不了解的“ c3 83 c2 a4”(请参见下面的hexdump; 我已经使用“ xxx”和“ yyy”作为标记来方便地找到它们 在十六进制转储中。

有人能对此有所启示吗?

这将创建测试数据库:

dh@jenna:~/python$ cat utf8test.sql
DROP DATABASE IF EXISTS utftest;
CREATE DATABASE utftest;
USE utftest;
CREATE TABLE x (
    id INTEGER PRIMARY KEY AUTO_INCREMENT,
        text VARCHAR(10)
        );
INSERT INTO x(text) VALUES ('xxxü');
COMMIT;
dh@jenna:~/python$ mysql < utf8test.sql

这是Pyhton脚本:

dh@jenna:~/python$ cat utf8test.py
# -*- encoding: utf8 -*-

from sqlalchemy import create_engine, Column, Unicode, Integer
from sqlalchemy.orm import sessionmaker
from sqlalchemy.ext.declarative import declarative_base

Base = declarative_base()
class X(Base):
    __tablename__ = 'x'
    id = Column(Integer, primary_key=True)
    text = Column(Unicode(10))

engine = create_engine('mysql://localhost/utftest',
    encoding='utf8')
Base.metadata.create_all(engine)
Session = sessionmaker(engine)

db = Session()
x = X(text=u'yyyä')
db.add(x)
db.commit()

rs = db.query(X.text).all()
for r in rs:
    print(r.text)

db.close()

当我运行脚本时会发生这种情况(当我运行脚本时不会出现错误 省略utf8test.sql中的INSERT INTO位):

dh@jenna:~/python$ python utf8test.py
Traceback (most recent call last):
  File "utf8test.py", line 23, in <module>
      rs = db.query(X.text).all()
[...]
UnicodeDecodeError: 'utf8' codec can't decode
    byte 0xfc in position 3: invalid start byte

这里是一个十六进制转储,以确认两个ä确实已存储 在数据库中有所不同。使用高清我还符合 Python和SQL脚本的确是UTF。

dh@jenna:~/python$ mysqldump utftest | hd
00000000  2d 2d 20 4d 79 53 51 4c  20 64 75 6d 70 20 31 30  |-- MySQL dump 10|
00000010  2e 31 36 20 20 44 69 73  74 72 69 62 20 31 30 2e  |.16  Distrib 10.|
00000020  31 2e 33 37 2d 4d 61 72  69 61 44 42 2c 20 66 6f  |1.37-MariaDB, fo|
00000030  72 20 64 65 62 69 61 6e  2d 6c 69 6e 75 78 2d 67  |r debian-linux-g|
00000040  6e 75 20 28 69 36 38 36  29 0a 2d 2d 0a 2d 2d 20  |nu (i686).--.-- |
[...]
00000520  4c 45 20 4b 45 59 53 20  2a 2f 3b 0a 49 4e 53 45  |LE KEYS */;.INSE|
00000530  52 54 20 49 4e 54 4f 20  60 78 60 20 56 41 4c 55  |RT INTO `x` VALU|
00000540  45 53 20 28 31 2c 27 78  78 78 c3 bc 27 29 2c 28  |ES (1,'xxx..'),(|
00000550  32 2c 27 79 79 79 c3 83  c2 a4 27 29 3b 0a 2f 2a  |2,'yyy....');./*|

2 个答案:

答案 0 :(得分:0)

xsl:iteratec3 83 c2 a4的“双重编码”。正如Ilja指出的那样。进一步讨论here

http://mysql.rjweb.org/doc.php/charcoll#fixes_for_various_cases提供了ä来修复数据。

以下是Python中可能需要修复的检查清单:http://mysql.rjweb.org/doc.php/charcoll#python

但这很可怕:我看到UPDATEc3 bc的Mojibake) üc3 83 c2 a4的双重编码。这意味着您在同一代码中遇到了两个 问题。回到零位,确保在所有阶段都使用utf8(或utf8mb4)。您的数据库可能太混乱了,无法恢复从,所以考虑重新开始。

唯一的问题可能是一个的python脚本中缺少ä。但不是。您要做,但使用时却发生了双重编码。

底线:您有多个错误。

答案 1 :(得分:0)

向数据库URL添加?use_utf8 = 0可以解决此问题。在SQLAlchemy文档中发现了这一点。