我曾预料到这会起作用:
>>> import urllib.request as r
>>> import zlib
>>> r.urlopen( r.Request("http://google.com/search?q=foo", headers={"User-Agent": "Mozilla/5.0 (X11; U; Linux i686) Gecko/20071127 Firefox/2.0.0.11", "Accept-Encoding": "gzip"}) ).read()
b'af0\r\n\x1f\x8b\x08...(long binary string)'
>>> zlib.decompress(_)
Traceback (most recent call last):
File "<pyshell#87>", line 1, in <module>
zlib.decompress(x)
zlib.error: Error -3 while decompressing data: incorrect header check
但事实并非如此。在这个例子中潜入Python uses StringIO,但是Python 3中似乎缺少这种方法。这样做的正确方法是什么?
答案 0 :(得分:18)
它适用于gzip
(gzip和zlib是相同的压缩但具有不同的标题/“包装”。您的错误在消息中包含此信息)。
import gzip
import urllib.request
request = urllib.request.Request(
"http://google.com/search?q=foo",
headers={
"Accept-Encoding": "gzip",
"User-Agent": "Mozilla/5.0 (X11; U; Linux i686) Gecko/20071127 Firefox/2.0.0.11",
})
response = urllib.request.urlopen(request)
gzipFile = gzip.GzipFile(fileobj=response)
gzipFile.read()
答案 1 :(得分:5)
在Python 3中,StringIO
是io
模块中的一个类。
因此,对于您链接的示例,如果您更改:
import StringIO
compressedstream = StringIO.StringIO(compresseddata)
为:
import io
compressedstream = io.StringIO(compresseddata)
它应该有用。
答案 2 :(得分:4)
对于使用Python 3.2或更高版本的任何人来说,解压缩响应的方法比任何答案都要简单:
import gzip
import urllib.request
request = urllib.request.Request(
"http://example.com/",
headers={"Accept-Encoding": "gzip"})
response = urllib.request.urlopen(request)
result = gzip.decompress(response.read())