环境:Python 2.7.4(部分在Windows上,部分在Linux上,见下文),suds(SVN HEAD稍加修改)
我需要调用一个带有单个参数的Web服务,这是一个XML字符串(是的,我知道......),即请求在WSDL中使用以下类型声明:
<s:complexType>
<s:sequence>
<s:element minOccurs="0" maxOccurs="1" name="actionString" type="s:string"/>
</s:sequence>
</s:complexType>
我正在使用cElementTree
构建这个内部XML文档,然后将其作为suds生成的client.service.ProcessAction(request)
方法的唯一参数传递。
有一段时间,这没关系:
root = ET.Element(u'ActionCommand')
value = ET.SubElement(root, u'value')
value.text = saxutils.escape(complex_value)
request = u'<?xml version="1.0" encoding="utf-8"?>\n' + ET.tostring(root, encoding='utf-8')
client.service.ProcessAction(request)
saxutils.escape
,我在某个时候添加了修复第一个编码问题,几乎无法理解为什么我需要它以及它有什么不同。
现在(可能是因为第一次出现英镑符号),我突然遇到以下异常:
Traceback (most recent call last):
File "/app/module.py", line 135, in _process_web_service_call
request = u'<?xml version="1.0" encoding="utf-8"?>\n' + ET.tostring(root, encoding='utf-8')
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc2 in position 137: ordinal not in range(128)
此处的位置137对应于内部XML请求中特殊字符的位置。显然,即使给出了编码,cElementTree.tostring()也会返回'str'类型,而不是'unicode'。因此Python尝试将此字符串str解码为unicode(为什么使用'ascii'?),以便它可以将它与unicode文字连接起来。这失败了(当然,因为str实际上是用UTF-8编码的,而不是ASCII编码。)
所以我想,好吧,我会解码它然后自己unicode:
root = ET.Element(u'ActionCommand')
value = ET.SubElement(root, u'value')
value.text = saxutils.escape(complex_value)
request_encoded_str = ET.tostring(root, encoding='utf-8')
request_unicode = request_encoded_str.decode('utf-8')
request = u'<?xml version="1.0" encoding="utf-8"?>\n' + request_unicode
client.service.ProcessClientAction(request)
现在除了它之外,它会在内部泡沫中爆炸,因为某些原因会尝试解码外部XML请求:
Traceback (most recent call last):
File "/app/module.py", line 141, in _process_web_service_call
raw_response = client.service.ProcessAction(request)
File "/app/.heroku/python/lib/python2.7/site-packages/suds/client.py", line 542, in __call__
return client.invoke(args, kwargs)
File "/app/.heroku/python/lib/python2.7/site-packages/suds/client.py", line 602, in invoke
result = self.send(soapenv)
File "/app/.heroku/python/lib/python2.7/site-packages/suds/client.py", line 643, in send
reply = transport.send(request)
File "/app/.heroku/python/lib/python2.7/site-packages/suds/transport/https.py", line 64, in send
return HttpTransport.send(self, request)
File "/app/.heroku/python/lib/python2.7/site-packages/suds/transport/http.py", line 118, in send
return self.invoke(request)
File "/app/.heroku/python/lib/python2.7/site-packages/suds/transport/http.py", line 153, in invoke
u2response = urlopener.open(u2request, timeout=tm)
File "/app/.heroku/python/lib/python2.7/urllib2.py", line 404, in open
response = self._open(req, data)
File "/app/.heroku/python/lib/python2.7/urllib2.py", line 422, in _open
'_open', req)
File "/app/.heroku/python/lib/python2.7/urllib2.py", line 382, in _call_chain
result = func(*args)
File "/app/.heroku/python/lib/python2.7/urllib2.py", line 1222, in https_open
return self.do_open(httplib.HTTPSConnection, req)
File "/app/.heroku/python/lib/python2.7/urllib2.py", line 1181, in do_open
h.request(req.get_method(), req.get_selector(), req.data, headers)
File "/app/.heroku/python/lib/python2.7/httplib.py", line 973, in request
self._send_request(method, url, body, headers)
File "/app/.heroku/python/lib/python2.7/httplib.py", line 1007, in _send_request
self.endheaders(body)
File "/app/.heroku/python/lib/python2.7/httplib.py", line 969, in endheaders
self._send_output(message_body)
File "/app/.heroku/python/lib/python2.7/httplib.py", line 827, in _send_output
msg += message_body
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc2 in position 565: ordinal not in range(128)
这里的位置565再次对应与上面相同的字符,除了这次是我的内部XML请求的位置嵌入到由suds创建的外部XML请求(SOAP)中。
我很困惑。任何人都可以帮我摆脱这个烂摊子吗? :)
更糟糕的是,所有这些只发生在Linux下的服务器上。这些都没有在我的Windows开发环境中引发异常。 (为了解释原因,我只是因为我很好奇。我怀疑它与不同的默认编码有关。但是,它们都不被服务器接受。如果我放弃saxutils.escape
然后将正确的unicode对象交给suds,那么在Windows上工作的是什么。但是,这仍然会在Linux上产生相同的UnicodeDecodeError
。
更新:我开始在Windows上调试它(它工作正常),在httplib.py的第827行,它确实尝试连接unicode对象msg
(包含HTTP标头)和str对象message_body
,导致使用不正确的编码进行隐式unicode解码。我想它只是因为某种原因在Windows上没有失败。我不明白为什么当我把一个unicode对象放在顶部时,suds会尝试发送一个str对象。
答案 0 :(得分:1)
事实证明这更荒谬。我仍然只了解整个问题和情况的一小部分,但我设法解决了我的问题。
所以让我们追溯一下:我相信,我最后一次尝试是最理智的。让我们从那里开始:
msg += message_body
Python的httplib.py
中的那一行尝试连接unicode和str对象,这导致str的隐式.decode('ascii')
,即使str是UTF8编码的。这是为什么?因为msg
是一个unicode对象。
msg = "\r\n".join(self._buffer)
self._buffer
是HTTP标头的列表。检查一下,那里只有一个标题是unicode,“感染”了结果字符串:动作和端点。
问题在于:我正在使用来自unicode_literals
的{{1}}(使其更具未来性,对吧?正确???)并且我将自己的端点传递给suds。< / p>
只需在网址上执行__future__
,我的所有问题就会消失。甚至不再需要整个.encode('utf-8')
(即使它奇怪也没有受到伤害)。
tl; dr :我猜你确定你没有将任何unicode对象传递到httplib或suds中。
saxutils.escape