在Python 2.7中使用unicode_literals时解码Django中的utf-8

时间:2012-09-05 19:25:44

标签: django unicode utf-8 python-2.7

我正在使用Django来管理Postgres数据库。我有一个值存储在数据库中,代表西班牙的一个城市(马拉加)。我的Django项目通过将from __future__ import unicode_literals放在我创建的每个文件的开头来为所有内容使用unicode字符串。

我需要从数据库中提取城市信息,然后使用XML请求将其发送到另一台服务器。沿途有登录,以便我可以观察数据流。当我尝试记录城市的价值时,我得到以下追溯:

UnicodeEncodeError: 'ascii' codec can't encode character u'\xe1' in position 1: ordinal not in range(128)

这是我用来记录我传递的值的代码。

def createXML(self, dict):
    """
    ..  method:: createXML()

        Create a single-depth XML string based on a set of tuples

        :param dict: Set of tuples (simple dictionary)
    """

    xml_string = ''
    for key in dict:
        self.logfile.write('\nkey = {0}\n'.format(key))
        if (isinstance(dict[key], basestring)):
            self.logfile.write('basestring\n')
            self.logfile.write('value = {0}\n\n'.format(dict[key].decode('utf-8')))
        else:
            self.logfile.write('value = {0}\n\n'.format(dict[key]))

        xml_string += '<{0}>{1}</{0}>'.format(key, dict[key])

    return xml_string

我基本上将所有信息保存在一个简单的字典中,并使用此函数生成XML格式的字符串 - 这超出了这个问题的范围。

我得到的错误让我想知道实际上在数据库中保存了什么。我已验证值为utf-8已编码。我创建了一个简单的脚本来从数据库中提取值,对其进行解码并将其打印到屏幕上。

from __future__ import unicode_literals
import psycopg2
# Establish the database connection
try:
    db = psycopg2.connect("dbname = 'dbname' \
                           user = 'user' \
                           host = 'IP Address' \
                           password = 'password'")
    cur = db.cursor()
except:
    print "Unable to connect to the database."

# Get database info if any is available
command = "SELECT state FROM table WHERE id = 'my_id'"
cur.execute(command)
results = cur.fetchall()

state = results[0][0]
print "my state is {0}".format(state.decode('utf-8'))

结果:my state is Málaga

在Django中,我正在执行以下操作来创建HTTP请求:

## Create the header
http_header = "POST {0} HTTP/1.0\nHost: {1}\nContent-Type: text/xml\nAuthorization: Basic {2}\nContent-Length: {3}\n\n"
req = http_header.format(service, host, auth, len(self.xml_string)) + self.xml_string

任何人都可以帮我纠正问题,以便我可以将此信息写入数据库并能够创建req字符串以发送给其他服务器吗?

我是否因Django处理此错误而收到此错误?如果是这样,Django在做什么?或者,我告诉Django这样做是什么导致了这个?

EDIT1: 我也试图在这个状态值上使用Django的django.utils.encoding。我从saltycrane读到了一些关于Djano可能与unicode / utf-8相关的打嗝的消息。

我尝试修改我的日志记录以使用smart_str功能。

def createXML(self, dict):
    """
    ..  method:: createXML()

        Create a single-depth XML string based on a set of tuples

        :param dict: Set of tuples (simple dictionary)
    """

    xml_string = ''
    for key in dict:
        if (isinstance(dict[key], basestring)):
            if (key == 'v1:State'):
                var_str = smart_str(dict[key])
                for index in range(0, len(var_str)):
                    var = bin(ord(var_str[index]))
                    self.logfile.write(var)
                    self.logfile.write('\n')
                self.logfile.write('{0}\n'.format(var_str))

        xml_string += '<{0}>{1}</{0}>'.format(key, dict[key])

    return xml_string

我能够将正确的值写入日志中,但我缩小了Python中.format()字符串功能的另一个可能问题。当然,我对python format unicode的Google搜索的第一个结果为Issue 7300,其中指出这是Python 2.7的已知“问题”。

现在,从another stackoverflow post我发现了一个“解决方案”,它在Django中不具备smart_str功能(或者至少我无法让它们一起工作)。

我将继续挖掘,看看我是否找不到根本问题 - 或至少是解决方法。

EDIT2: 我通过简单地连接字符串而不是使用.format()功能找到了解决方法。我不喜欢这种“解决方案” - 它很丑陋,但它完成了工作。

def createXML(self, dict):
    """
    ..  method:: createXML()

        Create a single-depth XML string based on a set of tuples

        :param dict: Set of tuples (simple dictionary)
    """

    xml_string = ''
    for key in dict:
        xml_string += '<{0}>'.format(key)
        if (isinstance(dict[key], basestring)):
            xml_string += smart_str(dict[key])
        else:
            xml_string += str(dict[key])
        xml_string += '<{0}>'.format(key)

    return xml_string

我打算不回答这个问题,因为我很想找到一个让我按照预期的方式使用.format()的解决方案。

1 个答案:

答案 0 :(得分:0)

这是正确的方法(问题在于打开文件。使用UTF-8你必须使用codecs.open()

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import codecs


class Writer(object):
    logfile = codecs.open("test.log", "w", 'utf-8')

    def createXML(self, dict):
        xml_string = ''
        for key, value in dict.iteritems():
            self.logfile.write(u'\nkey = {0}\n'.format(key))
            if (isinstance(value, basestring)):
                self.logfile.write(u'basestring\n')
                self.logfile.write(u'value = {0}\n\n'.format( value))
            else:
                self.logfile.write(u'value = {0}\n\n'.format( value ))

            xml_string += u'<{0}>{1}</{0}>'.format(key, value )

        return xml_string

这是来自python控制台:

In [1]: from test import Writer

In [2]: d = { 'a' : u'Zażółć gęślą jaźń', 'b' : u'Och ja Ci zażółcę' }

In [3]: w = Writer()

In [4]: w.createXML(d)
Out[4]: u'<a>Za\u017c\xf3\u0142\u0107 g\u0119\u015bl\u0105 ja\u017a\u0144</a><b>Och ja Ci za\u017c\xf3\u0142c\u0119</b>'

这是test.log档案:

key = a
basestring
value = Zażółć gęślą jaźń


key = b
basestring
value = Och ja Ci zażółcę