robots.txt - 一个robots.txt只允许抓取活动网站其余部分应该被禁止

时间：2010-09-30 07:22:17

标签： robots.txt

我需要有关使用robots.txt问题的指导原则如下。

我有一个实时网站“www.faisal.com”或“faisal.com”，并有两个测试网络服务器如下

“faisal.jupiter.com”和“faisal.dev.com”

我想要一个robots.txt来处理这一切，我不希望抓取工具从“faisal.jupiter.com”索引页面，而“faisal.dev.com”只允许从“www.faisal”索引页面。 com“或”faisal.com“

我想要一个robots.txt文件，该文件将在所有网络服务器上，并且应该只允许对实时网站进行索引。

答案 0 :(得分：1)

disallow命令仅指定相对URL，因此我猜你不能拥有相同的robots.txt文件。

为什么不在开发/测试服务器上强制进行HTTP身份验证？

这样机器人就无法抓取这些服务器。

如果你想让特定的人检查它们，而不是每个人试图在你尚未调试的新版本中找到缺陷，似乎是一个好主意......

特别是现在您已将地址发送给网络上的所有人。

答案 1 :(得分：1)

根据谁需要访问开发和测试服务器 - 以及从哪里，您可以使用.htaccess或iptables来限制IP地址级别。

或者，您可以将您的robots.txt文件与Web应用程序本身分开，以便您可以控制相对于环境的内容。