我正在尝试从给定的网页读取信息,但urllib.urlopen.read()没有了解在运行urllib.urlopen.read()的最后几个小时内所做的任何更改。
Heres my code:
import urllib2
url_latest = ('http://panoptic-fearless.ldc.yougov.net/questionnaires/Test_maj_demo_newG4_2/versions/')
versions = urllib2.urlopen(url_latest)
print versions.info()['date']
html = versions.read()
print html
这会打印页面上的所有内容,这很好。但是如果最近发生了某些变化,那么这个脚本就无法显示它。
如果我手动在Chrome中插入此网址,我可以看到此网页的最新信息:
http://panoptic-fearless.ldc.yougov.net/questionnaires/Test_maj_demo_newG4_2/versions/
有什么想法吗?如何访问最新版本的网页?
道歉,如果我的某些条款有问题,我仍然不熟悉编程世界。
解决。
信息正在某处缓存。每次调用脚本时,我都必须添加此行以重新验证其缓存条目:
versions.add_header('Cache-Control','max-age = 0')