我目前正在使用" copy_from"进行批量加载,但由于数据中存在双引号,似乎会出错。
engineor = create_engine('oracle+cx_oracle://xxxx:xxxx@xxxxx:xxxx/?service_name=xxxxx')
sql = "select * from xxxxxx WHERE ROWNUM <= 10"
df = pd.read_sql(sql, engineor)
enginegp = create_engine('xxxxx@xxxxx:xxxx/xxxx')
connection = enginegp.raw_connection()
output = io.StringIO()
df.to_csv(output, sep='\t', header=False, index=False)
output.seek(0)
output.getvalue()
cur = connection.cursor()
cur.copy_from(output, 'test', null="")
connection.commit()
cur.close()
我得到的错误是&#34; DataError:列&#34;有一些列名。我尝试使用替换从数据中删除逗号,我仍然得到具有不同列名的错误。
答案 0 :(得分:0)
使用CSV格式而不是尝试伪造postgresql TSV格式。 与CSV TSV不同,不使用引号。 TSV格式要求对非打印字符使用C转义 - 如果您的数据包含任何换行符,您最终会看到短行。如果它包含任何标签,你将获得长行。
要执行CSV,您需要使用copy_expert,它将授予对postgresql copy命令支持的所有选项的访问权限,包括CSV支持。
df.to_csv(output, header=False, index=False)
...
cur.copy_expert("COPY test FROM STDIN WITH CSV NULL '' ", output)