什么是monodoc.ashx以及googlebot为什么要求它?

时间:2011-09-30 08:33:27

标签: web googlebot

我收到了TONS的请求。它们都以

开头
/1.1/handlers/monodoc.ashx?link=

然后看起来像.NET类。这些是什么以及googlebot为什么要求他们?

我需要将其关闭,以便我的访问和错误日​​志不会受到污染。

1 个答案:

答案 0 :(得分:1)

Googlebot会请求其知道的任何网址,其中包含您自己可能未生成的网址。

例如,如果有一个论坛链接到您的网站并使用该URI,Googlebot会尝试抓取它以查看是否有任何值得索引的信息。

基于提供的IP,我确认它确实是Googlebot,因为反向DNS查找解析为'crawl-66-249-68-184.googlebot.com',并且正向DNS查找'crawl-66-249- 68-184.googlebot.com'解析回所提供的IP地址。

如果该页面不存在,您可以做的最好的事情就是回复404或410。如果你知道那里有什么内容,你应该将它重定向到你网站上的相关页面,以防其他人链接到那些页面......你不仅要保留这些链接的链接信用额度,对于已经关注该链接的用户来说,这也是一种更好的用户体验。如果没有相关的地方301重定向用户,你可以将它们重定向到你的主页,但只是知道从SEO的角度来看,链接值会衰减,因为链接的相关性可能不会完全匹配你主页的内容。

绝对确保您没有响应500或503响应代码。如果您有大量的5xx类型的回复,Googlebot会认为它会过度使用您的网站,并会减少他们的抓取速度。

最后,即使您是301,404或发送410回复...也希望看到Googlebot在某个时间点击这些网址(例如,即使是从现在开始的几年)。我的网站每隔几周就会收到一系列长期遗留旧版URI的Googlebot流量。有一些旧的硬壳网址,Googlebot会不时地运行它们,然后尝试重新抓取它们。他们甚至会保留一份历史列表,当他们觉得自己有足够的带宽分配到您的网站时,他们会尝试抓取这些列表。

TL; DR:不要出汗。 Googlebot会毫无理由地点击这些网址。只需发送最佳用户体验的响应,您就可以了。