我正在尝试使用Python在StringIO对象中写入数据,然后最终使用psycopg2的copy_from()函数将这些数据加载到postgres数据库中。
首先,当我这样做时,copy_from()抛出了一个错误:ERROR:编码“UTF8”的无效字节序列:0xc92所以我跟着this question。
我发现我的Postgres数据库有UTF8编码。
我正在编写数据的文件/ StringIO对象显示其编码如下: setgid非ISO扩展-ASK英文文本,带有很长的行,带有CRLF行终止符
我尝试将我写入中间文件/ StringIO对象的每个字符串编码为UTF8格式。要做到这一点,请为每个字符串使用.encode(encoding ='UTF-8',errors ='strict'))。
这是我现在得到的错误: UnicodeDecodeError:'ascii'编解码器无法解码位置47中的字节0x92:序数不在范围内(128)
这是什么意思?我该如何解决?
编辑: 我使用的是Python 2.7 我的一些代码:
我从MySQL数据库中读取了根据MySQL Workbench以UTF-8编码的数据。 这是用于将我的数据(从MySQL db获得)写入StringIO对象的几行代码:
# Populate the table_data variable with rows delimited by \n and columns delimited by \t
row_num=0
for row in cursor.fetchall() :
# Separate rows in a table by new line delimiter
if(row_num!=0):
table_data.write("\n")
col_num=0
for cell in row:
# Separate cells in a row by tab delimiter
if(col_num!=0):
table_data.write("\t")
table_data.write(cell.encode(encoding='UTF-8',errors='strict'))
col_num = col_num+1
row_num = row_num+1
这是从我的StringIO对象table_data:
写入Postgres数据库的代码cursor = db_connection.cursor()
cursor.copy_from(table_data, <postgres_table_name>)
答案 0 :(得分:6)
问题是您在encode
对象上调用str
。
str
是一个字节字符串,通常表示以某种方式编码的文本,如UTF-8。当您在其上调用encode
时,首先必须将其解码回文本,以便可以重新编码文本。默认情况下,Python通过调用s.decode(sys.getgetdefaultencoding())
来执行此操作,getdefaultencoding()
通常会返回'ascii'
。
所以,你说的是UTF-8编码文本,将其解码为ASCII,然后以UTF-8重新编码。
一般的解决方案是使用正确的编码显式调用decode
,而不是让Python使用默认值,然后encode
结果。
但是当正确的编码已经是您想要的时候,更简单的解决方案就是跳过.decode('utf-8').encode('utf-8')
并使用UTF-8 str
作为UTF-8 str
它已经是。
或者,或者,如果您的MySQL包装器具有允许您指定编码的功能并且获取unicode
/ CHAR
/ VARCHAR
列的TEXT
值,而不是str
值(例如,在MySQLdb中,您将use_unicode=True
传递给connect
调用,如果您的数据库太旧而无法自动检测,则为charset='UTF-8'
,就这样做。然后你会有unicode
个对象,你可以在它们上面调用.encode('utf-8')
。
一般来说,处理Unicode问题的最佳方法是最后一个 - 尽可能早地解码所有内容,用Unicode进行所有处理,然后尽可能晚地进行编码。但不管怎样,你必须保持一致。不要对可能是str
的内容致电unicode
;不要将str
文字连接到unicode
或将其传递给replace
方法;每当你混合搭配时,Python都会使用你的默认编码为你隐式转换,这几乎不是你想要的。
作为旁注,这是Python 3.x的Unicode更改帮助的许多内容之一。首先,str
现在是Unicode文本,而不是编码字节。更重要的是,如果您拥有编码的字节,例如,在bytes
对象中,调用encode
将为您提供AttributeError
,而不是尝试静默解码所以它可以重新编码。而且,类似地,尝试混合和匹配Unicode和字节将给你一个明显的TypeError
,而不是在某些情况下成功的隐式转换,并提供关于你没有要求的编码或解码的神秘消息其他