Googlebot正在抓取我们的网站。根据我们的网址结构,它会猜测新的可能网址。
我们的结构属/x/y/z/param1.value
种。现在谷歌机器人用大量不同的关键词交换x,y,z
和value
的值。
问题是,每次调用都会触发非常昂贵的操作,并且只有在极少数情况下才会返回正面结果。
我尝试在网站管理员工具的抓取部分设置了一个url参数(param1.
- >无抓取)。但这似乎不起作用,可能是因为我们的内联网址格式(使用html get格式?param1=..
会更好吗?)
由于Disallow: */param1.*
似乎不是允许的robots.txt条目,是否有其他方法可以禁止Google抓取此网站?
作为另一种解决方案,我想到了检测googlebot并给他返回一个特殊页面。 但我听说这将受到谷歌的惩罚。
目前,我们始终返回一个http状态代码200和一个人类可读的页面,其中显示:“找不到您的过滤条件的目标”。它有助于返回另一个状态代码吗?
答案 0 :(得分:0)
注意:这可能不是一般答案!
约阿希姆是对的。事实证明,googlebot并没有猜到网址。
做了一些研究我发现我在半年前在我的网站中添加了一个包含这些特殊URL的新DIV(我遗憾地忘记了)。一周前,googlebot开始抓取它。
我的解决方案:我删除了DIV,并在这些网址上返回404状态代码。我想,googlebot迟早会在重新访问我的网站后停止抓取网址。
感谢您的帮助!