使用python的urllib2 urlopen时缺少'content-length'标头

时间:2012-06-16 21:02:53

标签: python urllib2

尝试使用python中的urllib2检查某些网页的“content-length”标头时,标头丢失了。例如,google.com的回复缺少此标头。知道为什么吗?

示例:

r = urllib2.urlopen('http://www.google.com')
i = r.info()
print i.keys()

给出:

['x-xss-protection', 'set-cookie', 'expires', 'server', 'connection', 'cache-control', 'date', 'p3p', 'content-type', 'x-frame-options']

2 个答案:

答案 0 :(得分:1)

您可以看到here http响应可以包含Content-LengthTransfer-Encoding: chunked

但是,当标题中使用Transfer-Encoding: chunked时,在标题之后,您将获得一个十六进制字符串,如果转换为十进制,将为您提供下一个字符串的长度。在最后一个块之后,您将获得此值的0,这意味着您已到达文件的末尾。

您可以使用正则表达式来获取此十六进制值(不是必须的)

read = #string containing a line or a part of the http response
hexPat = re.compile(r'([0-9A-F]+)\r\n', re.I)
match = re.search(hexPat, read)
chunkLen = int(match.group(1), 16) #converts hexadecimal to decimal

或者您可以只读取第一个十六进制值,获取第一个块的长度并接收该块,然后获取下一个块的长度,依此类推,直到找到0

答案 1 :(得分:0)

HEAD响应的Content-Length应该,但并不总是包含GET响应的Content-Length值:

Stack Overflow确实:

> telnet stackoverflow.com 80
HEAD / HTTP/1.1
Host: stackoverflow.com


HTTP/1.1 200 OK
Cache-Control: public, max-age=60
Content-Length: 362245                           <--------
Content-Type: text/html; charset=utf-8
Expires: Mon, 04 Oct 2010 11:51:49 GMT
Last-Modified: Mon, 04 Oct 2010 11:50:49 GMT
Vary: *
Date: Mon, 04 Oct 2010 11:50:49 GMT

Google没有:

> telnet www.google.com 80
HEAD / HTTP/1.1
Host: www.google.ie


HTTP/1.1 200 OK
Date: Mon, 04 Oct 2010 11:55:36 GMT
Expires: -1
Cache-Control: private, max-age=0
Content-Type: text/html; charset=ISO-8859-1
Server: gws
X-XSS-Protection: 1; mode=block
Transfer-Encoding: chunked