Googlebot和其他蜘蛛是否总是提取最新内容?

时间:2013-08-13 22:04:59

标签: web-crawler googlebot http-caching

据我所知,使用以下元标记会阻止Web浏览器的缓存,但不会阻止代理:

<META HTTP-EQUIV="PRAGMA" CONTENT="NO-CACHE">
<META HTTP-EQUIV="CACHE-CONTROL" CONTENT="NO-CACHE">

但是,使用服务器端缓存头将完全阻止缓存。

我的网页是简单的.html文件,不是动态的(例如,不是.php)。如果我使用上面的元标记,考虑到代理可能仍会缓存页面,Googlebot和其他蜘蛛会不会提取我网站的最新内容,或者他们可能不会提取最新内容,因为我没有在服务器端设置缓存标头? / p>

1 个答案:

答案 0 :(得分:0)

使用元标记或HTTP标头与机器人没什么不同,它们意味着向请求代理传达建议。 如果代理(Google bot或代理)设置为遵守协议,则您的页面不会被缓存。

但是,请记住,虽然您要求不缓存页面,但代理和SE机器人可能会以不同的方式做出反应。

你必须记住,谷歌的范围是索引一个页面,只要他们可以抓取这个,可以使用或不使用缓存标记来完成,但是阻止缓存保留可能会导致他们的一些复杂化侧。