使用urllib检索所有标头数据

时间:2012-10-05 17:53:20

标签: python http-headers urllib

我已经删除了很多网站,并且经常想知道为什么Firebug中显示的响应标头和urllib.urlopen(url).info()返回的响应标头通常不同,因为Firebug报告了更多标题。

我今天遇到了一个有趣的人。我正在通过关注完全加载(返回200状态代码)的“搜索网址”来抓取网站,然后重定向到最终页面。执行scrape的最简单方法是返回Location响应头并发出另一个请求。但是,当我运行'urllib.urlopen(url).info()时,该特定标题不存在。

区别在于:

Firebug标题:

Cache-Control : no-store, no-cache, must-revalidate, post-check=0, pre-check=0
Connection : keep-alive
Content-Encoding : gzip
Content-Length : 2433
Content-Type : text/html
Date : Fri, 05 Oct 2012 15:59:31 GMT
Expires : Thu, 19 Nov 1981 08:52:00 GMT
Location : /catalog/display/1292/index.html
Pragma : no-cache
Server : Apache/2.0.55
Set-Cookie : PHPSESSID=9b99dd9a4afb0ef0ca267b853265b540; path=/
Vary : Accept-Encoding,User-Agent
X-Powered-By : PHP/4.4.0

我的代码返回的标题:

Date: Fri, 05 Oct 2012 17:16:23 GMT
Server: Apache/2.0.55
X-Powered-By: PHP/4.4.0
Set-Cookie: PHPSESSID=39ccc547fc407daab21d3c83451d9a04; path=/
Expires: Thu, 19 Nov 1981 08:52:00 GMT
Cache-Control: no-store, no-cache, must-revalidate, post-check=0, pre-check=0
Pragma: no-cache
Vary: Accept-Encoding,User-Agent
Content-Type: text/html
Connection: close

这是我的代码:

from BeautifulSoup import BeautifulSoup
import urllib
import psycopg2
import psycopg2.extras
import scrape_tools


tools = scrape_tools.tool_box()
db = tools.db_connect()

cursor = db.cursor(cursor_factory = psycopg2.extras.RealDictCursor)
cursor.execute("SELECT data FROM table WHERE variable = 'Constant' ORDER BY data")

for row in cursor:
    url = 'http://www.website.com/search/' + row['data']    
    headers = {
            'Accept' : 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
            'Accept-Encoding' : 'gzip, deflate',
            'Accept-Language' : 'en-us,en;q=0.5',
            'Connection' : 'keep-alive',
            'Host' : 'www.website.com',
            'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:15.0) Gecko/20100101 Firefox/15.0.1'
            }
    post_params = {
                'query' : row['data'],
                'searchtype' : 'products'
                }
    post_args = urllib.urlencode(post_params)
    soup = tools.request(url, post_args, headers)

    print tools.get_headers(url, post_args, headers)

请注意:scrape_tools是我自己编写的模块。用于检索标头的模块中包含的代码(基本上)如下:

class tool_box:
    def get_headers(self, url, post, headers):
        file_pointer = urllib.urlopen(url, post, headers)
        return file_pointer.info()

是否存在差异的原因?我在代码中犯了一个愚蠢的错误吗?如何检索丢失的标题数据?我对Python很新,所以请原谅任何愚蠢的错误。

提前致谢。任何建议都非常感谢!

另外...对于代码墙= \

抱歉

1 个答案:

答案 0 :(得分:3)

对于这两个请求,您没有获得相同类型的响应。例如,对Firefox请求的响应包含Location:标头,因此它可能是302 Moved temporarily301。那些不包含任何实际的正文数据,而是让你的Firefox在Location:标题中向URL发出第二个请求(urllib不这样做)。

Firefox响应也使用Connection : keep-alive,而urllib请求得到Connection: close的回答。

此外,Firefox响应是gzip压缩(Content-Encoding : gzip),而urllib则不是。这可能是因为您的Firefox在其请求中发送了Accept-Encoding: gzip, deflate标头。

不要依赖Firebug来告诉你HTTP标题(即使它在大多数情况下如实地这样说),但是使用像wireshark这样的嗅探器来检查实际过去的内容电线。

你显然正在处理两种不同的回应。

这可能有几个原因。首先,Web服务器应该以不同的方式响应,具体取决于客户端在其请求中发送的Accept-LanguageAccept-Encoding标头等。然后还有可能服务器进行某种User-Agent嗅探。

无论哪种方式,使用urllib抓取您的请求以及使用wireshark抓取Firefox的请求,首先比较请求(不是标头,而是实际的GET / HTTP/1.0部分。真的一样吗?如果是,继续比较请求标头并开始手动设置urllib请求的相同标头,直到找出哪些标头有所不同。