如何禁止使用robots.txt访问不带参数的网址

时间:2010-10-18 19:54:37

标签: robots.txt web-crawler

我想拒绝网络漫游器访问这样的网址:

http://www.example.com/export

允许使用这种网址:

http://www.example.com/export?foo=value1

蜘蛛机器人在没有查询字符串的情况下调用/export会导致我的日志出现很多错误 有没有办法在robots.txt上管理这个过滤器?

1 个答案:

答案 0 :(得分:1)

我假设您的机器人遇到示例中的第一个网址时出现问题。

正如评论中所说,这可能是不可能的,因为http://www.example.com/export是资源的基本URL。即使按照标准可行,我也不相信机器人能够正确理解这一点。

如果在没有查询字符串的情况下调用URL出于同样的原因,我也不会发送401 Access denied或类似的标头:机器人可能认为资源完全超出了界限。

如果有人到达

,我会在你的情况下做些什么
 http://www.example.com/export

301 Moved permanently重定向发送到相同的网址和带有一些默认值的查询字符串,例如

 http://www.example.com/export?foo=0

这应该保持搜索引擎索引清洁。 (但是,它不会修复您在评论中说明的日志记录问题。)