Google何时重新抓取网站?

时间:2009-08-04 05:50:18

标签: web-crawler googlebot

Google何时重新抓取网站? 为什么Google在Cache中有两个版本的同一页?

http://forum.portal.edu.ro/index.php?showtopic=112733 缓存页面是:forum.portal.edu.ro/index.php?showtopic = 112733& st = 25 / forum.portal.edu.ro/index.php?showtopic=112733&st=50

5 个答案:

答案 0 :(得分:4)

有很多关于Google抓取政策的讨论。您可以做的最好的事情是检查您的日志并确定他们的网站日程安排。

对于缓存中的多个条目,Google无法知道它们不是同一页面;他们有不同的URL和可能不同的数据。如果您想要使用特定页面,请尝试使用<link rel="canonical" href="(standard URL)">

答案 1 :(得分:1)

重新抓取网页的频率取决于排名的高低,以及您在网站地图中建议的更新间隔。还可以考虑其他一些因素,例如页面内容以及链接到它的网站类型。

缓存中的两个页面根本不是同一页面,一个是线程中的第二页,另一个是第三页。由于它们具有不同的URL和不同的内容,因此它们是单独的页面。

如果您确实希望搜索引擎将网页统计为相同,则可以使用link标记rel="canonical"来指回该主题的第一页。

答案 2 :(得分:1)

@Chris:网站配置&gt;设置&gt;设置自定义抓取率。此设置仅确定您的网站可以抓取多少速度,它不会设置抓取的频率。为了让您的网站获得更多抓取,请尝试将您网站的某些链接发布到其他网站。

答案 3 :(得分:0)

您可以通过调整以下内容来提高抓取速度:

网站配置&gt;设置&gt;设置自定义抓取率

答案 4 :(得分:0)

这取决于网站上的内容类型,也可能取决于其PageRank。提供很少更新信息的静态页面可能每隔一个月左右就会访问一次,每天有很多帖子的热门博客每天都会被抓取几次。 (虽然在博客的情况下,通常博客软件会ping搜索引擎,因此按需抓取)

这些似乎是中等流量网站上的论坛帖子,因此应该每周抓取几次。即使是我自己的网站,目前在Alexa上的排名低于8,000,000,每周都会被抓取,每隔一周就会有一个几乎每天都有robots.txt请求。

具有相似内容的页面应自动组合在一起,但如果不是,请尝试其他回答者提供的rel =“canonical”提示。

@Chris:不,该设置不会改变您网站的抓取频率,也不会改变Google在抓取过程中请求网页的速度。这是一个误导性的设置,很多人犯了这个错误,即使帮助页面清楚地表明了这一点。