为什么带有psycopg2 use_native_unicode的SQLAlchemy性能不佳?

时间:2012-11-20 04:57:31

标签: python postgresql sqlalchemy psycopg2

我很难弄清楚为什么一个简单的SELECT查询使用原始SQL花了这么长时间sqlalchemy(我得到14600行/秒,但是当通过psycopg2运行相同的查询而没有sqlalchemy时,我得到38421行/秒。

经过一番探讨,我意识到在create_engine调用中切换sqlalchemy的use_native_unicode参数实际上会产生很大的不同。

此查询需要0.5秒才能检索7300行:

from sqlalchemy import create_engine

engine = create_engine("postgresql+psycopg2://localhost...",
                       use_native_unicode=True)
r = engine.execute("SELECT * FROM logtable")
fetched_results = r.fetchall()

此查询需要0.19秒来检索相同的7300行:

engine = create_engine("postgresql+psycopg2://localhost...",
                       use_native_unicode=False)
r = engine.execute("SELECT * FROM logtable")
fetched_results = r.fetchall()

两个查询之间的唯一区别是use_native_unicode。但sqlalchemy自己的文档声明最好保持use_native_unicode = True(http://docs.sqlalchemy.org/en/latest/dialects/postgresql.html)。

有谁知道为什么use_native_unicode会产生如此大的性能差异?关闭use_native_unicode有什么后果?

2 个答案:

答案 0 :(得分:2)

根据您正在处理的非ASCII数据量,您需要决定此问题。 psycopg2解码unicode的方法比SQLAlchemy的解码速度快,假设SQLA的C扩展未被使用,但仍然增加了结果集的延迟而不进行任何类型的unicode转换。在上面的代码中,不使用SQLAlchemy的unicode工具;这些仅在列映射到Unicode或String类型时使用,只有在使用text(),select()或ORM级别的等效时才会使用这些类型,其中Unicode类型映射到这些结果集列使用表元数据text()的“typemap”参数。

Psycopg2的原生unicode工具OTOH在光标级别生效,因此总是生效,显然会增加一些延迟。

下面是一系列关于不同方法如何工作的插图。最后一个是与SQLAlchemy最相似的一个,虽然当使用SQLAlchemy的C扩展时,我们可能只是像psycopg2一样快:

import psycopg2
from psycopg2 import extensions

conn = psycopg2.connect(user='scott', password='tiger', host='localhost', database='test')

cursor = conn.cursor()
cursor.execute("""
create table data (
    id SERIAL primary key,
    data varchar(500)
)
""")

cursor.executemany("insert into data (data) values (%(data)s)", [
        {"data":"abcdefghij" * 50} for i in xrange(10000)
    ])
cursor.close()


def one(conn):
    cursor = conn.cursor()
    cursor.execute("SELECT data FROM data")
    for row in cursor:
        row[0]

def two(conn):
    cursor = conn.cursor()
    extensions.register_type(extensions.UNICODE, cursor)
    cursor.execute("SELECT data FROM data")
    for row in cursor:
        row[0]

def three(conn):
    cursor = conn.cursor()
    cursor.execute("SELECT data FROM data")
    for row in cursor:
        row[0].decode('utf-8')

def four(conn):
    cursor = conn.cursor()
    def conv_unicode(value):
        return value.decode('utf-8')
    cursor.execute("SELECT data FROM data")
    for row in cursor:
        conv_unicode(row[0])

import timeit

print "no unicode:", timeit.timeit("one(conn)", "from __main__ import conn, one", number=100)

print "native unicode:", timeit.timeit("two(conn)", "from __main__ import conn, two", number=100)

print "in Python unicode:", timeit.timeit("three(conn)", "from __main__ import conn, three", number=100)

print "more like SQLA's unicode:", timeit.timeit("four(conn)", "from __main__ import conn, four", number=100)

我得到的时间:

no unicode: 2.10434007645
native unicode: 4.52875208855
in Python unicode: 4.77912807465
more like SQLA's unicode: 4.88325881958

所以这里有趣的是,SQLA的方法,如果我们使用C扩展,实际上可能是比psycopg2的本机方法更好的选择,如果事实上你没有大量使用Unicode类型和大多数你的字符串值只是纯ASCII。

答案 1 :(得分:0)

TL;博士:最近在psycopg2中的unicode处理方面有一些性能改进 - 尝试2.7版本。

我注意到了和你一样的事情,并给@zzzeek发了一些时间。以下是他在邮件列表中的回复。 https://groups.google.com/d/msg/sqlalchemy/TtIel3LTGMY/Ta5oDkNdCwAJ

但是,基本上它归结为sqlalchemy中的c-extension unicode处理似乎比psycopg2更有效。我通知了psycopg2邮件列表并打开了一个问题并得到了很好的回复(https://github.com/psycopg/psycopg2/issues/473)。