无法使用Psycopg2在Amazon Redshift中创建表

时间:2018-06-18 06:02:11

标签: python-3.x amazon-redshift psycopg2

我正在尝试在python中创建一个简单的脚本,它将从端点获取数据,将其转换为数据帧并将其写入Amazon redshift集群,然后使用来自aws的cronjob自动执行脚本。我使用psycopg2连接到redshift集群,脚本很好地执行命令(在redshift中创建表并同时写入数据)。但是,当我尝试从SQL客户端看到表时,表格没有显示

from pandas.io.json import json_normalize
import json
import pandas as pd
import requests
import psycopg2
mm_get = requests.get('endpoint link'})
mm_json=mm_get.json()
data_1 = json_normalize(data         = mm_json['data'],
                       record_path   = ['courses','modules'],
                       record_prefix = 'courses.modules.',
                       meta          = [['courses', 'id'], 
                                        ['courses', 'title'],
                                        'activated', 
                                        'createdAt', 
                                        'email', 
                                        'employeeId', 
                                        'firstName', 
                                        'group', 
                                        'id', 
                                        'lastName', 
                                        'phone', 
                                        'teams'
                                       ]
                       )
data_2 = json_normalize(data         = mm_json['data'],
                       record_path   = 'lessons',
                       record_prefix = 'lessons.',
                       meta          = 'id',
                       meta_prefix   = 'user.'
                       )
data_3 = data_1.merge(
    data_2,
    how = 'outer', 
    left_on = ['courses.modules.id', 'id'],
    right_on = ['lessons.moduleId', 'user.id']
)

cols = data_3.columns
cols = cols.tolist()
cols = pd.DataFrame(cols)
re_cols = pd.DataFrame(cols.loc[:,0].str.replace('.','_').tolist(),index=cols.index)
data_3.teams = data_3.teams.astype(str)
data_3.teams = data_3.teams.str.replace('[','')
data_3.teams = data_3.teams.str.replace(']','')
data_3.teams = data_3.teams.str.replace("'","")

con=psycopg2.connect(dbname='name',
                     host='hostname',
                     port='xxxx',user='username',password='password')
cur = con.cursor()
cur.execute('create table testing_learn.test (courses_modules_completionDate DATE, courses_modules_id int,  courses_modules_status TEXT,courses_modules_title TEXT, courses_id int,courses_title TEXT, activated bool, createdAt TIMESTAMP, email TEXT, employeeId TEXT, firstName TEXT, group_name TEXT, id TEXT, lastname TEXT, phone int8, teams TEXT, lessons_courseId int, lessons_date DATE, lessons_id int, lessons_lessonNumber int, lessons_moduleId int,lessons_score TEXT, lessons_title TEXT,user_id int);')
cur.close()
data_mat = data_3.as_matrix()
str_mat = b','.join(cur.mogrify('(%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)',x) for x in tuple(map(tuple,data_mat)))
cur = con.cursor()
cur.execute('insert into testing_learn.test VALUES '+str_mat.decode('utf-8'))

当我使用psycopg2从python查询同一个表时,我能够看到数据,但是同一个表没有显示出来。如果有人能帮助解决我在这里做错了什么,那将是非常有帮助的。提前谢谢。

1 个答案:

答案 0 :(得分:1)

根据Psycopg2-2.7.5 official documentation,Psycopg2的主要入口点包括:

  
      
  • 类连接封装了一个数据库会话。它允许:      
        
    • 使用cursor()方法创建新的游标实例以执行数据库命令和查询,
    •   
    • 使用commit()或rollback()方法终止事务。
    •   
  •   

因此,您每次调用con.commit()后都需要调用cur.execute(),以使对数据库的更改持久化。否则,您的表将不会显示在数据库中。