我正在尝试从经常更新的博客中收集数据,因此我只使用包含urllib2.urlopen(“http:\ example.com”)的while循环每5分钟刷新一次页面以收集数据通缉。
但是我注意到我没有通过这样做得到最新内容,它与我通过浏览器(如Firefox)看到的不同,并且在检查了Firefox的源代码和我从python获得的同一页面之后,我发现它是WP Super Cache,它阻止我获得最新的结果。
即使我在python代码中欺骗了标题,我仍然可以获得相同的缓存页面。所以我想知道有没有办法通过WP超级缓存?为什么Firefox中没有这样的超级缓存呢?
答案 0 :(得分:2)
您是否尝试使用某些无害数据更改网址?像这样:
import time
urllib2.urlopen("http:\example.com?time=%s" % int(time.time()))
它实际上会调用http:\example.com?time=1283872559
。如果存在查询字符串或大多数不期望的内容,大多数缓存系统都会绕过缓存。