cx_Oracle - 将查询结果编码为Raw

时间:2011-10-21 12:06:07

标签: python character-encoding cx-oracle nls-lang

编辑:

以下图片显示了我的预期价值。

(sys.stdout.encoding和sys.stdin.encoding都是'UTF-8')。

为什么变量值与其打印值不同?我需要将原始值转换为变量。

>>username = 'Jo\xc3\xa3o'
>>username.decode('utf-8').encode('latin-1')
'Jo\xe3o'
>>print username.decode('utf-8').encode('latin-1')
João

原始问题:

我遇到了查询BD并将值解码为Python的问题。

我使用

确认了我的DB NLS_LANG
select property_value from database_properties where property_name='NLS_CHARACTERSET';

'''AL32UTF8 stores characters beyond U+FFFF as four bytes (exactly as Unicode defines 
UTF-8). Oracle’s “UTF8” stores these characters as a sequence of two UTF-16 surrogate
characters encoded using UTF-8 (or six bytes per character)'''

os.environ["NLS_LANG"] = ".AL32UTF8"

....
conn_data = str('%s/%s@%s') % (db_usr, db_pwd, db_sid)

sql = "select user_name apex.users where user_id = '%s'" % userid

...

cursor.execute(sql)
ldap_username = cursor.fetchone()
...

其中

print ldap_username
>>'Jo\xc3\xa3o'

我都试过(返回相同的)

ldap_username.decode('utf-8')
>>u'Jo\xe3o'
unicode(ldap_username, 'utf-8')
>>u'Jo\xe3o'

,其中

u'João'.encode('utf-8')
>>'Jo\xc3\xa3o'

如何将查询结果恢复到正确的'João'?

1 个答案:

答案 0 :(得分:1)

你已经拥有了正确的'João'。 >>> 'Jo\xc3\xa3o'>>> print 'Jo\xc3\xa3o'之间的区别在于前者在对象上调用repr,而后者在您的情况下调用str(或者可能是unicode) 。这就是字符串的表示方式。

一些例子可能会更清楚:

>>> print 'Jo\xc3\xa3o'.decode('utf-8')
João
>>> 'Jo\xc3\xa3o'.decode('utf-8')
u'Jo\xe3o'
>>> print repr('Jo\xc3\xa3o'.decode('utf-8'))
u'Jo\xe3o'

注意第二和第三个结果是如何相同的。原始ldap_username当前是ASCII字符串。您可以在Python提示符上看到这一点:当它显示ACSII对象时,它显示为'ASCII string',而Unicode对象显示为u'Unicode string' - 键是前导u

因此,当您的ldap_username读取为'Jo\xc3\xa3o'并且是ASCII字符串时,以下内容适用:

>>> 'Jo\xc3\xa3o'.decode('utf-8')
u'Jo\xe3o'
>>> print 'Jo\xc3\xa3o'.decode('utf-8') # To Unicode...
João
>>> u'João'.encode('utf-8')             # ... back to ASCII
'Jo\xc3\xa3o'

总结:您需要确定字符串的类型(在不确定时使用type),并在此基础上解码为Unicode,或编码为ASCII。