在了解如何阻止robot.txt上的某些URL时遇到问题

时间:2013-06-25 15:55:55

标签: web robots.txt googlebot

问题是这个。我在我拥有这种模式的系统上有一些URL

http://foo-editable.mydomain.com/menu1/option2
http://bar-editable.mydomain.com/menu3/option1

我想在robot.txt文件中指出不应该抓取它们。但是,我不确定这种模式是否正确:

User-agent: Googlebot 
Disallow: -editable.mydomain.com/*

它会像我期望的那样起作用吗?

2 个答案:

答案 0 :(得分:1)

您无法在robots.txt文件中指定域或子域。给定的robots.txt文件仅适用于从中加载的子域。阻止某些子域而不是其他子域的唯一方法是为不同的子域提供不同的robots.txt文件。

例如,在文件http://foo-editable.mydomain.com/robots.txt中 你会:

User-agent: Googlebot
Disallow: /

并在http://www.mydomain.com/robots.txt 你可以:

User-agent: *
Allow: /

(或者您可能根本没有www子域上的robots.txt文件)

如果您的配置无法为不同的子域提供不同的robots.txt文件,您可以查看机器人元标记或X-robots-tag响应标头等替代方案。

答案 1 :(得分:0)

我认为你必须像这样编码。

User-agent: googlebot 
Disallow: /*-editable.mydomain.com/

无法保证任何机器人都会处理asterisk as a wild card,但我认为googlebot会这样做。