Question

这些天 robots.txt 成为网站搜索引擎优化的重要工具。通过此文件，Web开发人员说爬虫机器人可以检查而不是检查特定路径。但另一方面，网站内部有许多秘密和重要的目录和文件，他们的路径不得在任何地方提及，以降低安全风险。谈到他们就像给一个小偷找一张地图找到所有的门问题是robots.txt是普通格式的，每个主体都很容易阅读，因为它几乎存储在根目录中并具有完全读取权限。所以，如果我有这样的文件

User-Agent: *
Disallow: 
Disallow: /admin/

我对每个人（特别是黑客）说：“我有一个名为 admin 的目录，不得对其进行抓取”。虽然我不喜欢其他人知道我的网站上有这样的目录。

我们如何解决这个问题？

Answer 1

您只能指定网址路径的开头。

如果是/admin/，您可以指定：

Disallow: /adm

您只需找到仅阻止您要阻止的网址的字符串，而不是其他网址（例如/administer-better）。

根据您的网址结构，将路径段添加到所有＆＃34; secret＆＃34;网址，并且只在robots.txt中引用此细分，而不是以下细分：

Disallow: /private/
# nothing to see when visiting /private/ 
# the secret URLs are:
#   /private/admin/
#   /private/login/

Answer 2

您可以在不想要抓取的页面中使用X-Robots-Tag。

但是我真的更喜欢IP白名单。

如何解决robots.txt vlunerability告诉黑客的重要和秘密路径？

2 个答案: