我的网站大约有500.000页。我制作了sitemap.xml并列出了其中的所有页面(我知道每个文件限制50.000个链接,所以我有10个站点地图)。无论如何,我在webmastertool中提交了站点地图,一切似乎都没问题(没有错误,我可以看到提交和索引链接)。 Hoverer我经常遇到蜘蛛问题。 GoogleBot每天4次抓取同一页面,但在sitemap.xml中我告诉该页面每年都会更改。
这是一个例子
<url>
<loc>http://www.domain.com/destitution</loc>
<lastmod>2015-01-01T16:59:23+02:00</lastmod>
<changefreq>yearly</changefreq>
<priority>0.1</priority>
</url>
1)那么如何告诉GoogleBot不要频繁使用蜘蛛呢?
2)网站有几个页面,如http://www.domain.com/destitution1,http://www.domain.com/destitution2 ...我将规范网址放到http://www.domain.com/destitution。这可能是多蜘蛛的原因吗?
答案 0 :(得分:1)
您可以向Google抓取小组报告此问题,请参阅此处:
一般来说,像这样的特定Googlebot抓取问题最好 直接通过网站站长工具处理。我会浏览网站 主域名设置,抓取率,然后使用“报告a Googlebot的问题“在那里形成。通过此表单提交的内容 去我们的Googlebot团队,他们可以解决什么(或者如果有的话)需求 在我们这边改变。他们通常无法回复,并且 除了抓取问题之外,它们将无法处理任何其他问题 确实知道Googlebot并且可以帮助调整它的功能。
https://www.seroundtable.com/google-crawl-report-problem-19894.html
答案 1 :(得分:1)
爬行会逐渐减慢。机器人可能会重新访问您的网页,因为您的网页之间存在内部链接。
通常,规范倾向于降低爬行率。但最初,谷歌机器人需要抓取源页面和目标页面。你会看到以后的好处。
谷歌机器人不一定要考虑lastmod
和changefreq
信息。但是如果他们确定内容没有被修改,他们就会更少回来。这是一个时间问题。每个URL都有一个重新访问的调度程序。
Bots适应服务器的容量(有关详细信息,请参阅crawling summary我维护的内容)。如果这是一个问题,您可以通过返回http错误代码500来暂时减慢机器人的速度。他们会停下来回来。
我不相信您的网站存在爬行问题。你看到的是正常行为。当一次提交多个站点地图时,可以暂时提高爬行率。