允许webroot中的所有文件,并禁止所有目录,除非特别允许

时间:2015-07-31 02:27:57

标签: robots.txt

我喜欢除了以下所有东西:

  1. 网络根目录中的所有文件
  2. Web根目录中的指定目录。
  3. 我在this answer

    看到了这个例子
    Allow: /public/section1/
    Disallow: /
    

    但是上面是否允许抓取web root中的所有文件? 我想允许web root中的所有文件。

1 个答案:

答案 0 :(得分:0)

如果要在不禁用文件的情况下禁止目录,则需要使用通配符:

User-agent: *
Allow: /public/section1/
Disallow: /*/

以上将允许以下所有内容:

http://example.com/
http://example.com/somefile
http://example.com/public/section1/
http://example.com/public/section1/somefile
http://example.com/public/section1/somedir/
http://example.com/public/section1/somedir/somefile

它将不允许以下所有内容:

http://example.com/somedir/
http://example.com/somedir/somefile
http://example.com/somedir/otherdir/somefile

请注意,通配符不是原始robots.txt规范的一部分,并且不受所有抓取工具的支持。它们受到所有主要搜索引擎的支持,但还有许多其他爬虫不支持它们。