麻烦获取请求== 2.7.0自动解压缩gzip

时间:2015-09-08 17:04:45

标签: python python-requests

我正在尝试读取我通过请求请求的gzip压缩文件。我读过的所有内容都表明解压缩应该会自动发生。

#!/usr/bin/python

from __future__ import unicode_literals
import requests

if __name__ == '__main__':

    url = 'http://rdf.dmoz.org/rdf/content.rdf.u8.gz'

    headers = {
        'Accept-Encoding': "gzip,x-gzip,deflate,sdch,compress",
        'Accept-Content': 'gzip',
        'HTTP-Connection': 'keep-alive',
        'Accept-Language': "en-US,en;q=0.8",
    }

    request_reply = requests.get(url, headers=headers)

    print request_reply.headers

    request_reply.encoding = 'utf-8'
    print request_reply.text[:200]
    print request_reply.content[:200]

我的第一行输出中的标题如下所示:

{'content-length': '260071268', 'accept-ranges': 'bytes', 'keep-alive': 'timeout=5, max=100', 'server': 'Apache', 'connection': 'Keep-Alive', 'date': 'Tue, 08 Sep 2015 16:27:49 GMT', 'content-type': 'application/x-gzip'}

接下来的两个输出行似乎是二进制的,我期待XML文本:

�Iɒ(�����~ؗool���u�rʹ�J���io�   a2R1��ߞ|�<����_��������Ҽҿ=�Z����onnz7�{JO���}h�����6��·��>,aҚ>��hZ6�u��x���?y�_�.y�$�Բ
�Iɒ(�����~ؗool���u�rʹ�J���io�   a2R1��ߞ|�<����_��������Ҽҿ=�Z����onnz7�{JO��}h�����6��·��>,aҚ>��hZ6�u��x���

我认为部分问题是site-packages/requests/packages/urllib3/response.py无法识别gzip,除非标题有'content-encoding': 'gzip'

我能够通过向response.py中的方法添加4行来获得我想要的结果,如下所示:

    def _init_decoder(self):
        """
        Set-up the _decoder attribute if necessar.
        """
        # Note: content-encoding value should be case-insensitive, per RFC 7230
        # Section 3.2
        content_encoding = self.headers.get('content-encoding', '').lower()
        if self._decoder is None and content_encoding in self.CONTENT_DECODERS:
            self._decoder = _get_decoder(content_encoding)

        # My added code below this comment
            return
        content_type = self.headers.get('content-type', '').lower()
        if self._decoder is None and content_type == 'application/x-gzip':
            self._decoder = _get_decoder('gzip')

但是,有更好的方法吗?

1 个答案:

答案 0 :(得分:4)

你误解了。只有transport-level compression会自动处理,因此HTTP服务器会应用压缩。

您已压缩内容。由于这不仅适用于HTTP传输阶段,requests也不会将其删除。

requests通过发送Accept-Encoding: gzip, deflate发送每个请求,与服务器通信它接受压缩响应。然后,服务器可以通过压缩整个响应主体并添加Content-Encoding标头来指示所使用的压缩来进行响应。

您的回复没有Content-Encoding标头,也不会再次应用压缩。

大部分时间您希望以压缩格式无论如何下载已压缩的存档,如DMOZ RDF数据集。毕竟,您请求了压缩存档。解码它不是requests库的工作。

在Python 3中,您可以使用gzip module并将响应流式传输来处理解码:

import gzip
import requests
import shutil

r = requests.get(url, stream=True)
if r.status_code == 200:
    with open(path, 'wb') as f:
        r.raw.decode_content = True  # just in case transport encoding was applied
        gzip_file = gzip.GzipFile(fileobj=r.raw)
        shutil.copyfileobj(gzip_file, f)

当然,您可以使用RDF解析器而不是将解压缩的数据复制到磁盘。

不幸的是,模块的Python 2实现需要一个可搜索的文件;您可以创建自己的streaming wrapper,或将_decoder属性添加到上面的r.raw对象。