如何防止robots.txt从登台环境传递到生产?

时间:2009-02-17 23:43:43

标签: search tomcat web-crawler robots.txt

我过去曾经发生过一次IT专家会意外地将robots.txt从生产中转移出来。阻止谷歌和其他人在生产中索引我们客户的网站。管理这种情况有好办法吗?

提前致谢。

5 个答案:

答案 0 :(得分:2)

作为SEO,我感到痛苦。

如果我错了,请原谅我,但我认为问题是由于您的登台服务器上有robots.txt而导致的,因为您需要阻止整个登台环境从搜索引擎查找并抓取它。

如果是这种情况,我建议将您的暂存环境放在内部,这不是问题。 (用于分段的Intranet类型或网络配置)。这可以节省很多搜索引擎问题,因为这些内容会被抓取,例如,他们意外地从您的暂存中删除了robots.txt文件,并抓取了一个重复的网站并将其编入索引。

如果这不是一个选项,建议将暂存放在服务器上的文件夹中,如domain.com/staging/,并只使用根文件夹中的一个robots.txt文件来完全阻止/ staging /文件夹。这样,你不需要使用两个文件,你可以在晚上睡觉,知道另一个robots.txt将不会取代你的。

如果这不是一个选项,可能会要求他们将其添加到他们的核对清单中以不移动该文件?你只需要检查一下 - 少睡一会儿,但要多一些预防措施。

答案 1 :(得分:2)

要求您的IT人员将robots.txt上的文件权限更改为“只读”,以便所有用户执行以下操作:

  1. 成为管理员/ root
  2. 更改权限以允许写入
  3. 使用新文件覆盖robots.txt

答案 2 :(得分:1)

创建一个部署脚本来移动各种工件(网页,图像,支持文件等),让IT人员通过运行脚本来完成移动。请确保不要在该脚本中包含robots.txt。

答案 3 :(得分:1)

我在生产服务器上设置了代码,该代码将生产robots.txt保存在另一个位置,并让它监控正在使用的那个。

如果它们不同,那么我会立即用生产版本覆盖正在使用的那个。然后,如果它被覆盖并不重要,因为坏版本将不会存在很长时间。在UNIX环境中,我会定期使用cron。

答案 4 :(得分:0)

为什么您的暂存环境不在防火墙后面而且没有公开曝光?

问题不在于Robots.txt ......问题在于您的网络基础设施。