尝试使用python中的urllib2检查某些网页的“content-length”标头时,标头丢失了。例如,google.com的回复缺少此标头。知道为什么吗?
示例:
r = urllib2.urlopen('http://www.google.com')
i = r.info()
print i.keys()
给出:
['x-xss-protection', 'set-cookie', 'expires', 'server', 'connection', 'cache-control', 'date', 'p3p', 'content-type', 'x-frame-options']
答案 0 :(得分:1)
您可以看到here http响应可以包含Content-Length
或Transfer-Encoding: chunked
。
但是,当标题中使用Transfer-Encoding: chunked
时,在标题之后,您将获得一个十六进制字符串,如果转换为十进制,将为您提供下一个字符串的长度。在最后一个块之后,您将获得此值的0
,这意味着您已到达文件的末尾。
您可以使用正则表达式来获取此十六进制值(不是必须的)
read = #string containing a line or a part of the http response
hexPat = re.compile(r'([0-9A-F]+)\r\n', re.I)
match = re.search(hexPat, read)
chunkLen = int(match.group(1), 16) #converts hexadecimal to decimal
或者您可以只读取第一个十六进制值,获取第一个块的长度并接收该块,然后获取下一个块的长度,依此类推,直到找到0
答案 1 :(得分:0)
HEAD响应的Content-Length应该,但并不总是包含GET响应的Content-Length值:
Stack Overflow确实:
> telnet stackoverflow.com 80
HEAD / HTTP/1.1
Host: stackoverflow.com
HTTP/1.1 200 OK
Cache-Control: public, max-age=60
Content-Length: 362245 <--------
Content-Type: text/html; charset=utf-8
Expires: Mon, 04 Oct 2010 11:51:49 GMT
Last-Modified: Mon, 04 Oct 2010 11:50:49 GMT
Vary: *
Date: Mon, 04 Oct 2010 11:50:49 GMT
Google没有:
> telnet www.google.com 80
HEAD / HTTP/1.1
Host: www.google.ie
HTTP/1.1 200 OK
Date: Mon, 04 Oct 2010 11:55:36 GMT
Expires: -1
Cache-Control: private, max-age=0
Content-Type: text/html; charset=ISO-8859-1
Server: gws
X-XSS-Protection: 1; mode=block
Transfer-Encoding: chunked