扭曲给予twisted.web.client.PartialDownloadError:200 OK

时间:2015-04-02 23:12:44

标签: python twisted

我有以下代码段,稍微修改了原始docsurl设置为http://google.com时,代码可以正常运行。但是当它变为http://www.google.com时会崩溃。崩溃时的错误是Failure: twisted.web.client.PartialDownloadError: 200 OK。回溯位于代码段下方。

最初我认为由于没有正确处理SSL,代码可能会崩溃。但是,看看标题这似乎不是问题。这是我第一次与Twisted合作;我不知道还有什么可能导致这个问题。

代码

from sys import argv
from pprint import pformat
from twisted.internet.task import react
from twisted.web.client import Agent, BrowserLikeRedirectAgent, readBody
from twisted.web.http_headers import Headers
from twisted.internet import reactor
from twisted.internet.ssl import ClientContextFactory

responses = []

class WebClientContextFactory(ClientContextFactory):
    def getContext(self, hostname, port):
        return ClientContextFactory.getContext(self)

def cbBody(r):
    print 'Response body:'
    print r
    responses.append(r)

def cbRequest(response):
    print 'Response version:', response.version
    print 'Response code:', response.code
    print 'Response phrase:', response.phrase
    print 'Response headers:'
    print pformat(list(response.headers.getAllRawHeaders()))
    d = readBody(response)
    d.addCallback(cbBody)
    return d

def main(reactor):
    contextFactory = WebClientContextFactory()
    agent = BrowserLikeRedirectAgent(Agent(reactor, contextFactory))
    url=b"http://google.com/"
    agent = Agent(reactor, contextFactory)
    d = agent.request(
        'GET', url,
        Headers({'User-Agent': ['Twisted Web Client Example']}),
        None)
    d.addCallback(cbRequest)
    return d

react(main)

回溯

In [1]: %tb
---------------------------------------------------------------------------
SystemExit                                Traceback (most recent call last)
/usr/local/lib/python2.7/site-packages/IPython/utils/py3compat.pyc in execfile(fname, glob, loc, compiler)
    218             else:
    219                 scripttext = builtin_mod.open(fname).read().rstrip() + '\n'
--> 220                 exec(compiler(scripttext, filename, 'exec'), glob, loc)
    221
    222

/project/demo.py in <module>()
     42     return d
     43
---> 44 react(main)

/usr/local/lib/python2.7/site-packages/twisted/internet/task.pyc in react(main, argv, _reactor)
    902     finished.addBoth(cbFinish)
    903     _reactor.run()
--> 904     sys.exit(codes[0])
    905
    906

SystemExit: 1

1 个答案:

答案 0 :(得分:2)

对不同网址的请求产生不同的响应不应该太令人惊讶。 URL标识不同的资源。在请求不同的资源时,您可能希望获得不同的响应。

您在请求PartialDownloadError时获得http://www.google.com/的原因是Google发送的回复中既没有Content-Length也没有Transfer-Encoding: chunked。这意味着客户端知道何时收到响应的唯一方法是TCP连接何时关闭。不幸的是,由于其他原因,TCP连接可能会关闭 - 因此,是否完全接收到响应是不明确的。

谷歌似乎正在以这种方式制定回应,以回应Agent如何发出请求的具体细节。 Google会以Transfer-Encoding: chunked回复其他代理商提出的请求。

解决此问题的一个选择是决定您是否关心在您不知情的情况下截断答案。在这种情况下,请向处理readBody的{​​{1}} Deferred添加错误。该异常具有PartialDownloadError属性,为您提供在TCP连接关闭之前读取的数据。获取该数据并将其返回,现在您已经将可能失败的案例转换为了一个假装错误的假装成功案例。

另一个选择是尝试摆弄请求的详细信息,直到您说服Google为您提供response(或至少Transfer-Encoding: chunked)。当然,只要您遇到另一台不想给您其中一个或另一个服务器的服务器,此解决方案就会中断。