如何防止Googlebot压倒网站?

时间:2009-08-25 13:55:50

标签: performance googlebot

我在一个中间道路的专用服务器上运行一个内容很多,但流量很小的网站。

有时候,Googlebot会踩踏我们,导致Apache最大限度地耗尽内存,并导致服务器崩溃。

我该如何避免这种情况?

6 个答案:

答案 0 :(得分:9)

您可以使用Google的网站管理员工具设置网站抓取方式。具体来看看这个页面:Changing Google's crawl rate

您还可以使用robots.txt文件限制google bot搜索的页面。 crawl-delay有一个设置,但谷歌似乎是not honored

答案 1 :(得分:8)

  • 在Google网站管理员工具中注册,验证您的网站并限制谷歌机器人下载
  • 提交站点地图
  • 阅读google guildelines:(if-Modified-Since HTTP标头)
  • 使用robot.txt限制从僵尸网站访问网站的某些部分
  • 创建一个脚本,每隔$ [时间段]更改robot.txt,以确保机器人永远无法同时抓取太多页面,同时确保它可以抓取所有内容

答案 2 :(得分:1)

使用Google网站站长工具注册您的网站,该工具可让您设置每周googlebot尝试为您的网站编制索引的请求频率和次数。 Google网站站长工具还可以帮助您创建robots.txt文件以减少网站负载

答案 3 :(得分:1)

请注意,您可以通过Google网站管理员工具设置抓取速度(在“网站设置”下),但他们只会将设置保留六个月!因此,您必须每六个月登录一次以重新设置它。

此设置在Google中已更改。该设置现在仅保存90天(3个月,而不是6个)。

答案 4 :(得分:0)

您可以在Google的网站管理员工具中配置抓取速度。

答案 5 :(得分:0)

要限制抓取速度:

  • 在Search Console主页上,单击所需的网站。

  • 点击齿轮图标设置,然后点击网站设置。

  • 在“抓取速度”部分中,选择所需的选项,然后根据需要限制抓取速度。

新的抓取速度有效期为90天。