我喜欢除了以下所有东西:
Allow: /public/section1/
Disallow: /
但是上面是否允许抓取web root中的所有文件? 我想允许web root中的所有文件。
答案 0 :(得分:0)
如果要在不禁用文件的情况下禁止目录,则需要使用通配符:
User-agent: *
Allow: /public/section1/
Disallow: /*/
以上将允许以下所有内容:
http://example.com/
http://example.com/somefile
http://example.com/public/section1/
http://example.com/public/section1/somefile
http://example.com/public/section1/somedir/
http://example.com/public/section1/somedir/somefile
它将不允许以下所有内容:
http://example.com/somedir/
http://example.com/somedir/somefile
http://example.com/somedir/otherdir/somefile
请注意,通配符不是原始robots.txt规范的一部分,并且不受所有抓取工具的支持。它们受到所有主要搜索引擎的支持,但还有许多其他爬虫不支持它们。