Robots.txt允许子文件夹但不允许父文件夹

时间:2011-09-30 10:24:03

标签: robots.txt

任何人都可以为以下场景解释正确的robots.txt命令。

我想允许访问:

/directory/subdirectory/..

但我还想限制/directory/的访问权限,但不能承受上述例外情况。

3 个答案:

答案 0 :(得分:23)

请注意,没有真正的官方标准,任何网络抓取工具都可能会高兴地忽略您的 robots.txt

根据a Google groups post,以下内容至少适用于GoogleBot;

User-agent: Googlebot 
Disallow: /directory/ 
Allow: /directory/subdirectory/

答案 1 :(得分:2)

如果这些是真正的目录,那么接受的答案可能是您的最佳选择。但是,如果您正在编写应用程序并且目录是动态生成的路径(例如,上下文,路由等),那么您可能希望使用元标记而不是在robots.txt中定义它。这样您就可以不必担心不同的浏览器如何解释/优先访问子目录路径。

你可以在代码中尝试这样的事情:

if is_parent_directory_path
   <meta name="robots" content="noindex, nofollow">
end

答案 2 :(得分:1)

我建议使用谷歌的机器人测试仪。利用Google网站管理员工具 - https://support.google.com/webmasters/answer/6062598?hl=en

您可以直接在工具中编辑和测试网址,此外您还可以获得大量其他工具。