所以我有一个非常简单的HTML页面(dir列表),我尝试用urllib读取它,这样:
page = urllib.urlopen(coreRepositoryUrl).read()
问题是,我用这种方式阅读的HTML比最新的HTML旧。 info()
让我回复:
Date: Fri, 19 Apr 2013 18:48:09 GMT
Server: Apache/2.0.52 (Fedora)
Content-Type: text/html; charset=UTF-8
Connection: close
Age: 481084
该页面最后更新今天(2013-04-25)。 哪个组件可能是缓存的组件?
答案 0 :(得分:2)
在请求中添加值为“max-age = 0”的标题“Cache-Control”
import urllib2
req = urllib2.Request(url)
req.add_header('Cache-Control', 'max-age=0')
resp = urllib2.urlopen(req)
content = resp.read()
使用该标头,沿途的每个缓存都将重新验证其缓存条目