如何保护机器人的机密目录?

时间:2019-06-03 04:23:09

标签: robots.txt

从机器人和爬网程序(例如Google机器人,.. etc)保护某些机密文件和目录的最佳方法是什么。

示例目录结构:

/folder/
/public_html/
             /includes/ - // Private
             /db/config.php - //Private
             index.php - // Public
             robots.txt - // Public

我知道我可以将这些文件和目录添加到robots.txt中并禁止它们, 但只有部分漫游器接受规则。用户还可以阅读robots.txt文件并查看机密文件的位置。

另一种选择是将这些文件夹和文件放在public_html目录之外。

所以您认为什么是保护它们的最佳方法。

2 个答案:

答案 0 :(得分:2)

声明哪些用户代理将无法看到您排除

User-agent: *

这不包括所有机器人。或者至少应该如此。

然后排除您的路径

Disallow: /something/
Disallow: /something_else/

希望这会有所帮助。

答案 1 :(得分:2)

当然,您不能使用robots.txt文件来隐藏目录,并且robots.txt文件甚至都不能阻止在Google上建立索引。

如果您使用的是Apache服务器,则需要设置一个.htaccess文件,并建立规则来隐藏/重定向并返回404错误页面或拒绝403访问。

例如http://corz.org/server/tricks/htaccess.php

另一种选择是在每个专用文件夹中创建一个.htaccess文件,并在该文件中添加以下行。

deny from all

希望如此,?