GoogleBot通过非常频繁地抓取服务器来重载服务器

时间:2015-04-30 10:19:24

标签: seo googlebot sitemap.xml

我的网站大约有500.000页。我制作了sitemap.xml并列出了其中的所有页面(我知道每个文件限制50.000个链接,所以我有10个站点地图)。无论如何,我在webmastertool中提交了站点地图,一切似乎都没问题(没有错误,我可以看到提交和索引链接)。 Hoverer我经常遇到蜘蛛问题。 GoogleBot每天4次抓取同一页面,但在sitemap.xml中我告诉该页面每年都会更改。

这是一个例子

<url>
    <loc>http://www.domain.com/destitution</loc>
    <lastmod>2015-01-01T16:59:23+02:00</lastmod>
    <changefreq>yearly</changefreq>
    <priority>0.1</priority>
</url>

1)那么如何告诉GoogleBot不要频繁使用蜘蛛呢?

2)网站有几个页面,如http://www.domain.com/destitution1http://www.domain.com/destitution2 ...我将规范网址放到http://www.domain.com/destitution。这可能是多蜘蛛的原因吗?

2 个答案:

答案 0 :(得分:1)

您可以向Google抓取小组报告此问题,请参阅此处:

  

一般来说,像这样的特定Googlebot抓取问题最好   直接通过网站站长工具处理。我会浏览网站   主域名设置,抓取率,然后使用“报告a   Googlebot的问题“在那里形成。通过此表单提交的内容   去我们的Googlebot团队,他们可以解决什么(或者如果有的话)需求   在我们这边改变。他们通常无法回复,并且   除了抓取问题之外,它们将无法处理任何其他问题   确实知道Googlebot并且可以帮助调整它的功能。

https://www.seroundtable.com/google-crawl-report-problem-19894.html

答案 1 :(得分:1)

爬行会逐渐减慢。机器人可能会重新访问您的网页,因为您的网页之间存在内部链接。

通常,规范倾向于降低爬行率。但最初,谷歌机器人需要抓取源页面和目标页面。你会看到以后的好处。

谷歌机器人不一定要考虑lastmodchangefreq信息。但是如果他们确定内容没有被修改,他们就会更少回来。这是一个时间问题。每个URL都有一个重新访问的调度程序。

Bots适应服务器的容量(有关详细信息,请参阅crawling summary我维护的内容)。如果这是一个问题,您可以通过返回http错误代码500来暂时减慢机器人的速度。他们会停下来回来。

我不相信您的网站存在爬行问题。你看到的是正常行为。当一次提交多个站点地图时,可以暂时提高爬行率。