Question

我正在尝试从经常更新的博客中收集数据，因此我只使用包含urllib2.urlopen（“http：\ example.com”）的while循环每5分钟刷新一次页面以收集数据通缉。

但是我注意到我没有通过这样做得到最新内容，它与我通过浏览器（如Firefox）看到的不同，并且在检查了Firefox的源代码和我从python获得的同一页面之后，我发现它是WP Super Cache，它阻止我获得最新的结果。

即使我在python代码中欺骗了标题，我仍然可以获得相同的缓存页面。所以我想知道有没有办法通过WP超级缓存？为什么Firefox中没有这样的超级缓存呢？

Answer 1

您是否尝试使用某些无害数据更改网址？像这样：

import time
urllib2.urlopen("http:\example.com?time=%s" % int(time.time()))

它实际上会调用http:\example.com?time=1283872559。如果存在查询字符串或大多数不期望的内容，大多数缓存系统都会绕过缓存。