Question

我的网站大约有500.000页。我制作了sitemap.xml并列出了其中的所有页面（我知道每个文件限制50.000个链接，所以我有10个站点地图）。无论如何，我在webmastertool中提交了站点地图，一切似乎都没问题（没有错误，我可以看到提交和索引链接）。 Hoverer我经常遇到蜘蛛问题。 GoogleBot每天4次抓取同一页面，但在sitemap.xml中我告诉该页面每年都会更改。

这是一个例子

<url>
    <loc>http://www.domain.com/destitution</loc>
    <lastmod>2015-01-01T16:59:23+02:00</lastmod>
    <changefreq>yearly</changefreq>
    <priority>0.1</priority>
</url>

1）那么如何告诉GoogleBot不要频繁使用蜘蛛呢？

2）网站有几个页面，如http://www.domain.com/destitution1，http://www.domain.com/destitution2 ...我将规范网址放到http://www.domain.com/destitution。这可能是多蜘蛛的原因吗？

Answer 1

您可以向Google抓取小组报告此问题，请参阅此处：

一般来说，像这样的特定Googlebot抓取问题最好直接通过网站站长工具处理。我会浏览网站主域名设置，抓取率，然后使用“报告a Googlebot的问题“在那里形成。通过此表单提交的内容去我们的Googlebot团队，他们可以解决什么（或者如果有的话）需求在我们这边改变。他们通常无法回复，并且除了抓取问题之外，它们将无法处理任何其他问题确实知道Googlebot并且可以帮助调整它的功能。

https://www.seroundtable.com/google-crawl-report-problem-19894.html

Answer 2

爬行会逐渐减慢。机器人可能会重新访问您的网页，因为您的网页之间存在内部链接。

通常，规范倾向于降低爬行率。但最初，谷歌机器人需要抓取源页面和目标页面。你会看到以后的好处。

谷歌机器人不一定要考虑lastmod和changefreq信息。但是如果他们确定内容没有被修改，他们就会更少回来。这是一个时间问题。每个URL都有一个重新访问的调度程序。

Bots适应服务器的容量（有关详细信息，请参阅crawling summary我维护的内容）。如果这是一个问题，您可以通过返回http错误代码500来暂时减慢机器人的速度。他们会停下来回来。

我不相信您的网站存在爬行问题。你看到的是正常行为。当一次提交多个站点地图时，可以暂时提高爬行率。

GoogleBot通过非常频繁地抓取服务器来重载服务器

2 个答案: