如何解决robots.txt vlunerability告诉黑客的重要和秘密路径?

时间:2015-11-01 20:47:40

标签: security path robots.txt

这些天 robots.txt 成为网站搜索引擎优化的重要工具。通过此文件,Web开发人员说爬虫机器人可以检查而不是检查特定路径。但另一方面,网站内部有许多秘密和重要的目录和文件,他们的路径不得在任何地方提及,以降低安全风险。谈到他们就像给一个小偷找一张地图找到所有的门 问题是robots.txt是普通格式的,每个主体都很容易阅读,因为它几乎存储在根目录中并具有完全读取权限。所以,如果我有这样的文件

User-Agent: *
Disallow: 
Disallow: /admin/

我对每个人(特别是黑客)说:“我有一个名为 admin 的目录,不得对其进行抓取”。虽然我不喜欢其他人知道我的网站上有这样的目录。

我们如何解决这个问题?

2 个答案:

答案 0 :(得分:1)

您只能指定网址路径的开头。

如果是/admin/,您可以指定:

Disallow: /adm

您只需找到仅阻止您要阻止的网址的字符串,而不是其他网址(例如/administer-better)。

根据您的网址结构,将路径段添加到所有" secret"网址,并且只在robots.txt中引用此细分,而不是以下细分:

Disallow: /private/
# nothing to see when visiting /private/ 
# the secret URLs are:
#   /private/admin/
#   /private/login/

答案 1 :(得分:0)

您可以在不想要抓取的页面中使用X-Robots-Tag。

但是我真的更喜欢IP白名单。