如何将包含sqlalchemy查询语句的循环的速度提高为条件

时间:2010-04-08 22:32:30

标签: python sqlite sqlalchemy

此循环检查记录是否在sqlite数据库中,并为缺少的记录构建字典列表,然后使用列表执行多个insert语句。这有效,但它非常慢(至少我认为它很慢),因为它需要5分钟来循环超过3500个查询。我是python,sqlite和sqlalchemy的完全新手,所以我想知道是否有更快的方法。

list_dict = []

session = Session()

for data in data_list:
    if session.query(Class_object).filter(Class_object.column_name_01 == data[2]).filter(Class_object.column_name_00 == an_id).count() == 0:
        list_dict.append({'column_name_00':a_id,
                          'column_name_01':data[2]})

conn = engine.connect()
conn.execute(prices.insert(),list_dict)
conn.close()
session.close()

编辑:我将session = Session()移到了循环之外。没有什么区别。

感谢 mcabral 回答我将代码修改为:

existing_record_list = []
list_dict = []

conn = engine.connect()
s = select([prices.c.column_name_01], prices.c.column_name_00==a_id)
result = conn.execute(s) 
for row in result:       
    existing_record_list.append(row[0])

for data in raw_data['data']:
    if data[2] not in existing_record_list:
        list_dict.append({'column_name_00':a_id,
                          'column_name_01':data[2]}

conn = engine.connect()
conn.execute(prices.insert(),list_dict)
conn.close()

这需要6秒钟。这是一些改进!!

2 个答案:

答案 0 :(得分:3)

3500个查询似乎很重要,

您是否考虑过在一个查询中提取所有实体?然后,您将遍历内存中的列表,而不是查询每个项目的数据库。

答案 1 :(得分:0)

很高兴你找到了有用的东西,额外的2美分:

我同意mcabral。作为一般规则,如果您在循环中放置查询,则会遇到麻烦。流行的SQL DB通常针对数据采集进行了优化。循环查询通常表明您在程序上正在执行应该/可以使用单个查询或字符串执行的操作,这些查询将数据相互放入。

这有例外,但根据我的经验,它们通常很少而且很远......每次我通过循环运行查询时,我后来都后悔了。