将pyodbc.rows列表转换为pandas数据框需要很长时间

时间:2018-11-26 17:16:40

标签: python pandas pyodbc

是否有更快的方法将pyodbc.rows对象转换为pandas Dataframe?将一千万个以上的pyodbc.rows对象列表转换为pandas数据框大约需要30-40分钟。

import pyodbc
import pandas

server = <server_ip> 
database = <db_name> 
username = <db_user> 
password = <password> 
port='1443'

conn = pyodbc.connect('DRIVER={SQL Server};SERVER='+server+';PORT='+port+';DATABASE='+database+';UID='+username+';PWD='+ password)

#takes upto 12 minutes
rows = cursor.execute("select top 10000000 * from [LSLTGT].[MBR_DIM] ").fetchall() 

#Read cursor data into Pandas dataframe.....Takes forever!
df = pandas.DataFrame([tuple(t) for t in rows]) 

2 个答案:

答案 0 :(得分:0)

通过使用生成器表达式而不是列表理解,您可能会得到一些改进:

df = pandas.DataFrame((tuple(t) for t in rows)) 

答案 1 :(得分:0)

还有一个选项可以直接对熊猫执行此操作:

df = pd.DataFrame.from_records(rows, columns=[col[0] for col in cursor.description])
相关问题