使用Python批量加载特殊字符

时间:2018-06-13 01:01:25

标签: python postgresql greenplum bulk-load

我目前正在使用" copy_from"进行批量加载,但由于数据中存在双引号,似乎会出错。

engineor = create_engine('oracle+cx_oracle://xxxx:xxxx@xxxxx:xxxx/?service_name=xxxxx')
sql = "select * from xxxxxx WHERE ROWNUM <= 10"
df = pd.read_sql(sql, engineor)

enginegp = create_engine('xxxxx@xxxxx:xxxx/xxxx')
connection = enginegp.raw_connection()
output = io.StringIO()
df.to_csv(output, sep='\t', header=False, index=False)
output.seek(0)
output.getvalue()
cur = connection.cursor()
cur.copy_from(output, 'test', null="")
connection.commit()
cur.close()

我得到的错误是&#34; DataError:列&#34;有一些列名。我尝试使用替换从数据中删除逗号,我仍然得到具有不同列名的错误。

1 个答案:

答案 0 :(得分:0)

使用CSV格式而不是尝试伪造postgresql TSV格式。 与CSV TSV不同,不使用引号。 TSV格式要求对非打印字符使用C转义 - 如果您的数据包含任何换行符,您最终会看到短行。如果它包含任何标签,你将获得长行。

要执行CSV,您需要使用copy_expert,它将授予对postgresql copy命令支持的所有选项的访问权限,包括CSV支持。

df.to_csv(output, header=False, index=False)

...

cur.copy_expert("COPY test FROM STDIN WITH CSV NULL '' ", output)