robots.txt会忽略所有文件夹,但会抓取root中的所有文件

时间:2010-02-09 11:23:09

标签: apache robots.txt

我应该这样做

用户代理:*

禁止:/

就这么简单吗? 或者不会抓取根目录中的文件?

基本上就是我所追求的 - 抓取根目录中的所有文件/页面,但根本不抓取任何文件夹 或者我将必须明确指定每个文件夹..即

禁止:/ admin

禁止:/ this

..等等

感谢

NAT

1 个答案:

答案 0 :(得分:2)

您的示例将阻止root中的所有文件。

没有"standard"方法可以轻松地执行您想要的操作而无需明确指定每个文件夹。

但是有些抓取工具do support extensions可以让您进行模式匹配。您可以禁止所有不支持模式匹配的机器人,但允许那些支持模式匹配的机器人。

例如

# disallow all robots
User-agent: *
Disallow: /

# let google read html and files
User-agent: Googlebot
Allow: /*.html
Allow: /*.pdf
Disallow: /