使用两个不同且独立的表计算的最佳方法是什么?

时间:2015-09-14 02:00:18

标签: python sql-server algorithm pyodbc vertica

我有两个不同的表位于两个独立的数据库中,我试图找出进行计算的最佳方法。

第一个表包含列:site(varchar 256),网站流量(整数),站点类型(varchar 256)。第二个表包含:site(varchar 256),每月成本(float),站点类型(varchar 256)。

到目前为止,我有查询结果,但我对如何进行实际分析感到困惑,实际分析基本上包括网站流量和每月费用(简化示例),同时使用网站和网站类型作为关键

现在,如果这些是同一个数据库上的两个不同的表,我可以做一个简单的连接,并以我的快乐方式。但是,这是不可能的。因此,我想知道什么是处理这个问题的最pythonic方法。

我的头脑风暴包括将第一个查询导出为csv,然后在第二个数据库中创建临时表,然后在那里进行分析。如果有更好的方法在python中完成工作,请告诉我。

我的代码:

import pyodbc

conn = pyodbc.connect(r'DRIVER={SQL Server Native Client 11.0};SERVER=xyx;DATABASE=xxy;UID=xyx;PWD=xyx')

cursor = conn.cursor()

cursor.execute("select * from sites;")

rows = cursor.fetchall()

with open('file.txt' , 'w') as f:
    for row in rows:
        csv.writer(f).writerows(row)

cursor.close()
del cursor
conn.close()

conn = pyodbc.connect(driver='{Vertica}', server='blah', database='yys', port=5433, 
    uid='zzx', pwd='zzx')

cursor = conn.cursor()

cursor.execute("select * from table1;")

with open('otherfile.txt' , 'w') as f:
    for row in rows:
        csv.writer(f).writerows(row)

cursor.close()
del cursor
conn.close()

1 个答案:

答案 0 :(得分:3)

考虑使用Python的数据分析包pandas,它可以将SQL数据库中的查询读入数据帧。然后通过唯一字段合并两个数据帧,或者如果列名称对齐,则连接两个数据帧。

此外,您可以运行其他复杂的分析(即groupbypivot_table)并输出数据框to_csvto_sql作为SQL数据库中的新表。

import pandas as pd
import pyodbc

# FIRST DATA FRAME      
conn = pyodbc.connect(r'DRIVER={SQL Server Native Client 11.0};\                      
                        SERVER=xyx;DATABASE=xxy;UID=xyx;PWD=xyx')
ssqlsite_df = pd.read_sql("select * from sites;", conn)
conn.close()

# SECOND DATA FRAME
conn = pyodbc.connect(driver='{Vertica}', server='blah', \
                      database='yys', port=5433, uid='zzx', pwd='zzx')
vertsite_df = pd.read_sql("select * from table1;", conn)
conn.close()

# MERGE DATA FRAMES
finaldf = merge(ssqlsite_df, vertsite_df, on=['SiteName', 'TypeOfSite'])

# CONCATENATE/STACK DATA FRAMES 
# (ASSUMING COLUMNS ARE SAME NAME, ADJUST IN QUERY FIELD ALIASES)
finaldf = concat([ssqlsite_df, vertsite_df], axis=0)  

print(finaldf.head(10))    # FIRST TEN ROWS

# DATA ANALYSIS
# CALCULATED COLUMN
finaldf['SiteCost'] = finaldf['WebsiteTraffic'].convert_objects(convert_numeric=True) * \
                      finaldf['MonthlyCost'].convert_objects(convert_numeric=True)     
... 

# OUTPUT DATA FRAME
# CREATES NEW TABLE IF PERMISSION GRANTED. BE SURE TO RE-OPEN CONNECTION.
# finaldf.to_sql('SiteAnalysis', conn)  

finaldf.to_csv('C:\\Path\\To\\SiteAnalysis.csv')