一个robots.txt只允许抓取活动网站其余部分应该被禁止

时间:2010-09-30 07:22:17

标签: robots.txt

我需要有关使用robots.txt问题的指导原则如下。

我有一个实时网站“www.faisal.com”或“faisal.com”,并有两个测试网络服务器如下

“faisal.jupiter.com”和“faisal.dev.com”

我想要一个robots.txt来处理这一切,我不希望抓取工具从“faisal.jupiter.com”索引页面,而“faisal.dev.com”只允许从“www.faisal”索引页面。 com“或”faisal.com“

我想要一个robots.txt文件,该文件将在所有网络服务器上,并且应该只允许对实时网站进行索引。

2 个答案:

答案 0 :(得分:1)

disallow命令仅指定相对URL,因此我猜你不能拥有相同的robots.txt文件。

为什么不在开发/测试服务器上强制进行HTTP身份验证?

这样机器人就无法抓取这些服务器。

如果你想让特定的人检查它们,而不是每个人试图在你尚未调试的新版本中找到缺陷,似乎是一个好主意......

特别是现在您已将地址发送给网络上的所有人。

答案 1 :(得分:1)

根据谁需要访问开发和测试服务器 - 以及从哪里,您可以使用.htaccess或iptables来限制IP地址级别。

或者,您可以将您的robots.txt文件与Web应用程序本身分开,以便您可以控制相对于环境的内容。