任何人都可以为以下场景解释正确的robots.txt
命令。
我想允许访问:
/directory/subdirectory/..
但我还想限制/directory/
的访问权限,但不能承受上述例外情况。
答案 0 :(得分:23)
请注意,没有真正的官方标准,任何网络抓取工具都可能会高兴地忽略您的 robots.txt
根据a Google groups post,以下内容至少适用于GoogleBot;
User-agent: Googlebot
Disallow: /directory/
Allow: /directory/subdirectory/
答案 1 :(得分:2)
如果这些是真正的目录,那么接受的答案可能是您的最佳选择。但是,如果您正在编写应用程序并且目录是动态生成的路径(例如,上下文,路由等),那么您可能希望使用元标记而不是在robots.txt中定义它。这样您就可以不必担心不同的浏览器如何解释/优先访问子目录路径。
你可以在代码中尝试这样的事情:
if is_parent_directory_path
<meta name="robots" content="noindex, nofollow">
end
答案 2 :(得分:1)
我建议使用谷歌的机器人测试仪。利用Google网站管理员工具 - https://support.google.com/webmasters/answer/6062598?hl=en
您可以直接在工具中编辑和测试网址,此外您还可以获得大量其他工具。