我想每分钟申请一个网址。但在我请求整个页面之前,我想检查它是否根据标题中的ETag / Content-length / Age进行更新。我怎样才能在Scrapy中实现它?
答案 0 :(得分:1)
查看scrapy downloader middleware它附带RFC2616 policy
的实现
- 请勿尝试使用no-store存储响应/请求 cache-control指令集
- 如果为新响应设置了no-cache cache-control指令,则不要提供缓存响应
- 从max-age缓存控制指令计算新鲜度生命周期
- 从Expires响应标头计算新鲜度生命周期
- 从Last-Modified响应标头计算新鲜度生命周期(Firefox使用的启发式方法)
- 从年龄响应标题计算当前年龄
- 从日期标题
计算当前年龄- 根据Last-Modified响应标头重新验证陈旧响应
- 根据ETag响应标题重新验证陈旧响应
- 为收到的任何错过的回复设置日期标题