Question

如何使用Python的urllib2创建“保持活跃”的HTTP请求？

Answer 1

使用urlgrabber库。这包括支持HTTP 1.1和keepalive的urllib2的HTTP处理程序：

>>> import urllib2
>>> from urlgrabber.keepalive import HTTPHandler
>>> keepalive_handler = HTTPHandler()
>>> opener = urllib2.build_opener(keepalive_handler)
>>> urllib2.install_opener(opener)
>>> 
>>> fo = urllib2.urlopen('http://www.python.org')

注意：您应该使用urlgrabber版本3.9.0或更早版本，因为版本3.9.1中已删除keepalive模块

Python 3有一个port的keepalive模块。

Answer 2

尝试具有以下功能的urllib3：

为多个请求（HTTPConnectionPool和HTTPSConnectionPool）重复使用相同的套接字连接（使用可选的客户端证书验证）。
文件发布（encode_multipart_formdata）。
内置重定向和重试（可选）。
支持gzip和deflate解码。
线程安全且安全。
小而易懂的代码库，非常适合扩展和构建。有关更全面的解决方案，请查看请求。

或更全面的解决方案 - Requests - 支持来自version 0.8.0的保持活动（通过内部使用urllib3）并具有以下features：

非常简单的HEAD，GET，POST，PUT，PATCH，DELETE请求。
Gevent支持Asyncronous Requests。
Cookie持久性的会话。
基本，摘要和自定义身份验证支持。
字典的自动表单编码
请求/响应cookie的简单字典界面。
分段文件上传。
自动解码Unicode，gzip和deflate响应。
完全支持unicode网址和域名。

Answer 3

或者查看httplib的HTTPConnection。

Answer 4

不幸的是，在urlgrabber更改为依赖pycurl（支持keep-alive）之后，2009年9月25日，keepalive.py从urlgrabber中删除了以下更改：

http://yum.baseurl.org/gitweb?p=urlgrabber.git;a=commit;h=f964aa8bdc52b29a2c137a917c72eecd4c4dda94

但是，您仍然可以在此处获取keepalive.py的最新修订版：

http://yum.baseurl.org/gitweb?p=urlgrabber.git;a=blob_plain;f=urlgrabber/keepalive.py;hb=a531cb19eb162ad7e0b62039d19259341f37f3a6

Answer 5

请注意，urlgrabber并不完全适用于python 2.6。我通过在keepalive.py中进行以下修改来解决问题（我认为）。

在keepalive.HTTPHandler.do_open（）中删除此

     if r.status == 200 or not HANDLE_ERRORS:
         return r

并插入此

     if r.status == 200 or not HANDLE_ERRORS:
         # [speedplane] Must return an adinfourl object
         resp = urllib2.addinfourl(r, r.msg, req.get_full_url())
         resp.code = r.status
         resp.msg = r.reason
         return resp

Answer 6

请避免集体痛苦并改用Requests。默认情况下它会做正确的事情，如果适用的话，使用keep-alive。

Answer 7

这里有一个类似的urlopen（）可以保持活着，虽然它不是线程安全的。

try:
    from http.client import HTTPConnection, HTTPSConnection
except ImportError:
    from httplib import HTTPConnection, HTTPSConnection
import select
connections = {}


def request(method, url, body=None, headers={}, **kwargs):
    scheme, _, host, path = url.split('/', 3)
    h = connections.get((scheme, host))
    if h and select.select([h.sock], [], [], 0)[0]:
        h.close()
        h = None
    if not h:
        Connection = HTTPConnection if scheme == 'http:' else HTTPSConnection
        h = connections[(scheme, host)] = Connection(host, **kwargs)
    h.request(method, '/' + path, body, headers)
    return h.getresponse()


def urlopen(url, data=None, *args, **kwargs):
    resp = request('POST' if data else 'GET', url, data, *args, **kwargs)
    assert resp.status < 400, (resp.status, resp.reason, resp.read())
    return resp

Python urllib2与活着

7 个答案: