Question

我们有一个页面可以选择将ID作为GET参数。如果提供了无效的ID，该页面将抛出错误并发出通知，表明某人正在错误地访问该页面。添加燃料是因为ID可以有效一段时间，然后到期。

我们遇到的问题是搜索引擎机器人正在使用旧的过期ID访问该页面。这意味着每次我们获得蜘蛛时，我们都会得到一堆“误报”警报。我希望能有一些方法告诉机器人继续抓取页面，但不要使用GET参数 - 只需索引无参数页面。甚至可以使用robots.txt文件或类似文件进行远程操作吗？

注意：我知道解决此问题的最佳方法是更改网页的行为，事实上，这会在几周后发生。我只是在寻找解决方案。

Answer 1

在检查_GET的if语句中，放置此HTML：

<meta name="robots" content="noindex, nofollow">
<meta name="googlebot" content="noindex, nofollow">

Answer 2

您可以建议蜘蛛会在robots.txt中使用以下内容忽略您网址的某些部分：

User-agent: *
Disallow: *id=

编辑以澄清：这将导致蜘蛛忽略GET字符串中id = blah的任何URL - 它不会神奇地“剥离”id = part。但是，这实际上是您想要的，因为没有“？id =”参数的普通URL会返回您想要编入索引的数据。