peewee orm:使用子查询批量插入但基于python-side-data

时间:2016-05-18 11:06:44

标签: python sql orm bulkinsert peewee

peewee允许通过insert_many()insert_from()批量插入,但insert_many()允许插入数据列表,但不允许从数据库的其他部分计算数据。 insert_from() 允许从数据库的其他部分计算数据,但不允许从python发送任何数据。

实施例

假设这样的模型结构:

class BaseModel(Model):
    class Meta:
        database = db

class Person(BaseModel):
    name = CharField(max_length=100, unique=True)

class StatusUpdate(BaseModel):
    person = ForeignKeyField(Person, related_name='statuses')
    status = TextField()
    timestamp = DateTimeField(constraints=[SQL('DEFAULT CURRENT_TIMESTAMP')], index=True)

一些初始数据:

Person.insert_many(rows=[{'name': 'Frank'}, {'name': 'Joe'}, {'name': 'Arnold'}]).execute()
print ('Person.select().count():',Person.select().count())

输出:

Person.select().count(): 3

假设我们要添加一堆新状态更新,例如此列表中的更新:

new_status_updates = [ ('Frank', 'wat')
                     , ('Frank', 'nooo')
                     , ('Joe', 'noooo')
                     , ('Arnold', 'nooooo')]

我们可能会尝试使用insert_many()

StatusUpdate.insert_many( rows=[{'person': 'Frank', 'status': 'wat'}
                              , {'person': 'Frank', 'status': 'nooo'}
                              , {'person': 'Joe', 'status': 'noooo'}
                              , {'person': 'Arnold', 'status': 'nooooo'}]).execute()

但是这会失败:person字段需要Person模型或Person.id,我们必须进行额外的查询才能从名称中检索这些模型。

我们可以通过insert_from()允许我们创建子查询来避免这种情况,但insert_from()无法处理我们的列表或词典。怎么办?

1 个答案:

答案 0 :(得分:1)

一个想法是使用SQL VALUES子句作为SELECT语句的一部分。

如果您熟悉SQL,之前可能已经看过VALUES子句,它通常用作INSERT语句的一部分,如下所示:

INSERT INTO statusupdate (person_id,status)
VALUES (1, 'my status'), (1, 'another status'), (2, 'his status');

这告诉数据库在表statusupdate中插入三行--AKA元组。

插入东西的另一种方法是做类似的事情:

INSERT INTO statusupdate (person_id,status)
SELECT ..., ... FROM <elsewhere or subquery>;

这相当于peewee提供的insert_from()功能。

但是你可以做的另一件不太常见的事情是:你可以使用任何选择中的VALUES子句来提供文字值。例如:

SELECT *
FROM (VALUES (1,2,3), (4,5,6)) as my_literal_values;

这将返回两行/元组的结果集,每行有3个值。

因此,如果您可以将“批量”插入转换为SELECT/FROM/VALUES语句,则可以执行您需要执行的任何转换(即,将Person.name值转换为相应的Person.id值),然后将它与peewee'insert_from()`功能结合起来。

那么让我们看看这会是怎样的。

首先让我们开始构建VALUES子句。我们想要正确转义的值,因此我们将使用问号而不是现在的值,并将实际值放在稍后。

#this is gonna look like '(?,?), (?,?), (?,?)'
# or '(%s,%s), (%s,%s), (%s,%s)' depending on the database type
values_question_marks = ','.join(['(%s, %s)' % (db.interpolation,db.interpolation)]*len(new_status_updates))

下一步是构造values子句。这是我们的第一次尝试:

--the %s here will be replaced by the question marks of the clause
--in postgres, you must have a name for every item in `FROM`
SELECT * FROM (VALUES %s) someanonymousname

好的,现在我们有一个看起来像的结果集:

name | status
-----|-------
...  | ...

除!没有列名。这会让我们在一分钟内感到一阵痛苦,所以我们必须找到一种方法来为结果集提供正确的列名。

postgres方式只是改变AS子句:

SELECT * FROM (VALUES %s) someanonymousname(name,status)

sqlite3不支持(grr)。

所以我们沦为一个kludge。幸运的是stackoverflow提供了:Is it possible to select sql server data using column ordinal position,我们可以构造这样的东西:

SELECT NULL as name, NULL as status WHERE 1=0
UNION ALL
SELECT * FROM (VALUES %s) someanonymousname

首先使用正确的列名创建一个空结果集,然后将VALUES子句中的结果集连接到它。这将生成一个具有正确列名的结果集,可以在sqlite3和postgres中使用。

现在把它带回到peewee:

values_query = """
(
    --a trick to make an empty query result with two named columns, to more portably name the resulting
    --VALUES clause columns (grr sqlite)
    SELECT NULL as name, NULL as status WHERE 1=0
    UNION ALL
    SELECT * FROM (VALUES %s) someanonymousname
)
"""

values_query %= (values_question_marks,)

#unroll the parameters into one large list
#this is gonna look like ['Frank', 'wat', 'Frank', 'nooo', 'Joe', 'noooo' ...]
values_query_params = [value for values in new_status_updates for value in values]

#turn it into peewee SQL
values_query = SQL(values_query,*values_query_params)
data_query = (Person
                .select(Person.id, SQL('values_list.status').alias('status'))
                .from_(Person,values_query.alias('values_list'))
                .where(SQL('values_list.name') == Person.name))


insert_query = StatusUpdate.insert_from([StatusUpdate.person, StatusUpdate.status], data_query)

print (insert_query)
insert_query.execute()
print ('StatusUpdate.select().count():',StatusUpdate.select().count())

输出:

StatusUpdate.select().count(): 4