这些天 robots.txt 成为网站搜索引擎优化的重要工具。通过此文件,Web开发人员说爬虫机器人可以检查而不是检查特定路径。但另一方面,网站内部有许多秘密和重要的目录和文件,他们的路径不得在任何地方提及,以降低安全风险。谈到他们就像给一个小偷找一张地图找到所有的门 问题是robots.txt是普通格式的,每个主体都很容易阅读,因为它几乎存储在根目录中并具有完全读取权限。所以,如果我有这样的文件
User-Agent: *
Disallow:
Disallow: /admin/
我对每个人(特别是黑客)说:“我有一个名为 admin 的目录,不得对其进行抓取”。虽然我不喜欢其他人知道我的网站上有这样的目录。
我们如何解决这个问题?
答案 0 :(得分:1)
您只能指定网址路径的开头。
如果是/admin/
,您可以指定:
Disallow: /adm
您只需找到仅阻止您要阻止的网址的字符串,而不是其他网址(例如/administer-better
)。
根据您的网址结构,将路径段添加到所有" secret"网址,并且只在robots.txt中引用此细分,而不是以下细分:
Disallow: /private/
# nothing to see when visiting /private/
# the secret URLs are:
# /private/admin/
# /private/login/
答案 1 :(得分:0)
您可以在不想要抓取的页面中使用X-Robots-Tag。
但是我真的更喜欢IP白名单。