我需要有关使用robots.txt问题的指导原则如下。
我有一个实时网站“www.faisal.com”或“faisal.com”,并有两个测试网络服务器如下
“faisal.jupiter.com”和“faisal.dev.com”
我想要一个robots.txt来处理这一切,我不希望抓取工具从“faisal.jupiter.com”索引页面,而“faisal.dev.com”只允许从“www.faisal”索引页面。 com“或”faisal.com“
我想要一个robots.txt文件,该文件将在所有网络服务器上,并且应该只允许对实时网站进行索引。
答案 0 :(得分:1)
disallow命令仅指定相对URL,因此我猜你不能拥有相同的robots.txt文件。
为什么不在开发/测试服务器上强制进行HTTP身份验证?
这样机器人就无法抓取这些服务器。
如果你想让特定的人检查它们,而不是每个人试图在你尚未调试的新版本中找到缺陷,似乎是一个好主意......
特别是现在您已将地址发送给网络上的所有人。
答案 1 :(得分:1)
根据谁需要访问开发和测试服务器 - 以及从哪里,您可以使用.htaccess或iptables来限制IP地址级别。
或者,您可以将您的robots.txt文件与Web应用程序本身分开,以便您可以控制相对于环境的内容。