suds请求中的嵌套文本编码

时间:2013-05-06 17:41:44

标签: python unicode python-2.7 character-encoding

环境:Python 2.7.4(部分在Windows上,部分在Linux上,见下文),suds(SVN HEAD稍加修改)

我需要调用一个带有单个参数的Web服务,这是一个XML字符串(是的,我知道......),即请求在WSDL中使用以下类型声明:

<s:complexType>
  <s:sequence>
    <s:element minOccurs="0" maxOccurs="1" name="actionString" type="s:string"/>
  </s:sequence>
</s:complexType>

我正在使用cElementTree构建这个内部XML文档,然后将其作为suds生成的client.service.ProcessAction(request)方法的唯一参数传递。

有一段时间,这没关系:

root = ET.Element(u'ActionCommand')
value = ET.SubElement(root, u'value')
value.text = saxutils.escape(complex_value)
request = u'<?xml version="1.0" encoding="utf-8"?>\n' + ET.tostring(root, encoding='utf-8')
client.service.ProcessAction(request)

saxutils.escape,我在某个时候添加了修复第一个编码问题,几乎无法理解为什么我需要它以及它有什么不同。

现在(可能是因为第一次出现英镑符号),我突然遇到以下异常:

Traceback (most recent call last):
  File "/app/module.py", line 135, in _process_web_service_call
    request = u'<?xml version="1.0" encoding="utf-8"?>\n' + ET.tostring(root, encoding='utf-8')
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc2 in position 137: ordinal not in range(128)

此处的位置137对应于内部XML请求中特殊字符的位置。显然,即使给出了编码,cElementTree.tostring()也会返回'str'类型,而不是'unicode'。因此Python尝试将此字符串str解码为unicode(为什么使用'ascii'?),以便它可以将它与unicode文字连接起来。这失败了(当然,因为str实际上是用UTF-8编码的,而不是ASCII编码。)

所以我想,好吧,我会解码它然后自己unicode:

root = ET.Element(u'ActionCommand')
value = ET.SubElement(root, u'value')
value.text = saxutils.escape(complex_value)
request_encoded_str = ET.tostring(root, encoding='utf-8')
request_unicode = request_encoded_str.decode('utf-8')
request = u'<?xml version="1.0" encoding="utf-8"?>\n' + request_unicode
client.service.ProcessClientAction(request)

现在除了它之外,它会在内部泡沫中爆炸,因为某些原因会尝试解码外部XML请求:

Traceback (most recent call last):
  File "/app/module.py", line 141, in _process_web_service_call
    raw_response = client.service.ProcessAction(request)
  File "/app/.heroku/python/lib/python2.7/site-packages/suds/client.py", line 542, in __call__
    return client.invoke(args, kwargs)
  File "/app/.heroku/python/lib/python2.7/site-packages/suds/client.py", line 602, in invoke
    result = self.send(soapenv)
  File "/app/.heroku/python/lib/python2.7/site-packages/suds/client.py", line 643, in send
    reply = transport.send(request)
  File "/app/.heroku/python/lib/python2.7/site-packages/suds/transport/https.py", line 64, in send
    return HttpTransport.send(self, request)
  File "/app/.heroku/python/lib/python2.7/site-packages/suds/transport/http.py", line 118, in send
    return self.invoke(request)
  File "/app/.heroku/python/lib/python2.7/site-packages/suds/transport/http.py", line 153, in invoke
    u2response = urlopener.open(u2request, timeout=tm)
  File "/app/.heroku/python/lib/python2.7/urllib2.py", line 404, in open
    response = self._open(req, data)
  File "/app/.heroku/python/lib/python2.7/urllib2.py", line 422, in _open
    '_open', req)
  File "/app/.heroku/python/lib/python2.7/urllib2.py", line 382, in _call_chain
    result = func(*args)
  File "/app/.heroku/python/lib/python2.7/urllib2.py", line 1222, in https_open
    return self.do_open(httplib.HTTPSConnection, req)
  File "/app/.heroku/python/lib/python2.7/urllib2.py", line 1181, in do_open
    h.request(req.get_method(), req.get_selector(), req.data, headers)
  File "/app/.heroku/python/lib/python2.7/httplib.py", line 973, in request
    self._send_request(method, url, body, headers)
  File "/app/.heroku/python/lib/python2.7/httplib.py", line 1007, in _send_request
    self.endheaders(body)
  File "/app/.heroku/python/lib/python2.7/httplib.py", line 969, in endheaders
    self._send_output(message_body)
  File "/app/.heroku/python/lib/python2.7/httplib.py", line 827, in _send_output
    msg += message_body
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc2 in position 565: ordinal not in range(128) 

这里的位置565再次对应与上面相同的字符,除了这次是我的内部XML请求的位置嵌入到由suds创建的外部XML请求(SOAP)中。

我很困惑。任何人都可以帮我摆脱这个烂摊子吗? :)

更糟糕的是,所有这些只发生在Linux下的服务器上。这些都没有在我的Windows开发环境中引发异常。 (为了解释原因,我只是因为我很好奇。我怀疑它与不同的默认编码有关。但是,它们都不被服务器接受。如果我放弃saxutils.escape然后将正确的unicode对象交给suds,那么在Windows上工作的是什么。但是,这仍然会在Linux上产生相同的UnicodeDecodeError

更新:我开始在Windows上调试它(它工作正常),在httplib.py的第827行,它确实尝试连接unicode对象msg(包含HTTP标头)和str对象message_body,导致使用不正确的编码进行隐式unicode解码。我想它只是因为某种原因在Windows上没有失败。我不明白为什么当我把一个unicode对象放在顶部时,suds会尝试发送一个str对象。

1 个答案:

答案 0 :(得分:1)

事实证明这更荒谬。我仍然只了解整个问题和情况的一小部分,但我设法解决了我的问题。

所以让我们追溯一下:我相信,我最后一次尝试是最理智的。让我们从那里开始:

msg += message_body

Python的httplib.py中的那一行尝试连接unicode和str对象,这导致str的隐式.decode('ascii'),即使str是UTF8编码的。这是为什么?因为msg是一个unicode对象。

msg = "\r\n".join(self._buffer)

self._buffer是HTTP标头的列表。检查一下,那里只有一个标题是unicode,“感染”了结果字符串:动作和端点。

问题在于:我正在使用来自unicode_literals的{​​{1}}(使其更具未来性,对吧?正确???)并且我将自己的端点传递给suds。< / p>

只需在网址上执行__future__,我的所有问题就会消失。甚至不再需要整个.encode('utf-8')(即使它奇怪也没有受到伤害)。

tl; dr :我猜你确定你没有将任何unicode对象传递到httplib或suds中。

saxutils.escape