我知道这个问题被多次询问,但我希望更具体。
我有一个开发域,并将网站移动到子文件夹。我们来自:
http://www.example.com/
要:
http://www.example.com/backup
所以我希望子文件夹根本不被搜索引擎索引。我把robots.txt与子文件夹中的以下内容放在一起(我可以将它放在子文件夹中,或者它必须始终在根目录下,因为我希望搜索引擎可以看到根目录中的内容):
User-agent: *
Disallow: /
也许我需要更换它并在根目录中添加以下内容:
User-agent: *
Disallow: /backup
另一件事是,我在某处读到某些机器人不尊重robots.txt文件,所以只需将.htaccess文件放在/ backup文件夹中就可以了吗?
Order deny,allow
Deny from all
有什么想法吗?
答案 0 :(得分:13)
这会阻止该目录被编入索引:
User-agent: *
Disallow: /backup/
此外,您的robots.txt文件必须放在您网域的根目录中,因此在这种情况下,您可以将文件放在可以在浏览器中访问的位置,方法是转到http://example.com/robots.txt
另外,您可能需要考虑为开发网站设置子域名,例如http://dev.example.com。这样做可以让您将开发人员与生产环境完全分开,并确保您的环境更加匹配。
例如,从开发到生产,JavaScript文件,CSS,图像或其他资源的任何绝对路径可能无法正常工作,这可能会导致一些问题。
有关如何配置此文件的详细信息,请参阅robotstxt.org站点。祝你好运!
作为最后和最后一个注释Google Webmaster Tools有一个部分,您可以see what is blocked by the robots.txt file:
要查看Google已被阻止抓取哪些网址,请访问网站站长工具“健康”部分的“阻止的网址”页面。
我强烈建议您使用此工具,因为错误配置的robots.txt文件可能会对您网站的效果产生重大影响。