我可以阻止蜘蛛访问具有某些GET参数的页面吗?

时间:2011-05-26 16:01:36

标签: java servlets seo robots.txt googlebot

我们有一个页面可以选择将ID作为GET参数。如果提供了无效的ID,该页面将抛出错误并发出通知,表明某人正在错误地访问该页面。添加燃料是因为ID可以有效一段时间,然后到期。

我们遇到的问题是搜索引擎机器人正在使用旧的过期ID访问该页面。这意味着每次我们获得蜘蛛时,我们都会得到一堆“误报”警报。我希望能有一些方法告诉机器人继续抓取页面,但不要使用GET参数 - 只需索引无参数页面。甚至可以使用robots.txt文件或类似文件进行远程操作吗?


注意:我知道解决此问题的最佳方法是更改​​网页的行为,事实上,这会在几周后发生。我只是在寻找解决方案。

2 个答案:

答案 0 :(得分:1)

在检查_GET的if语句中,放置此HTML:

<meta name="robots" content="noindex, nofollow">
<meta name="googlebot" content="noindex, nofollow">

答案 1 :(得分:1)

您可以建议蜘蛛会在robots.txt中使用以下内容忽略您网址的某些部分:

User-agent: *
Disallow: *id=

编辑以澄清:这将导致蜘蛛忽略GET字符串中id = blah的任何URL - 它不会神奇地“剥离”id = part。但是,这实际上是您想要的,因为没有“?id =”参数的普通URL会返回您想要编入索引的数据。