我应该这样做
用户代理:*
禁止:/
就这么简单吗? 或者不会抓取根目录中的文件?
基本上就是我所追求的 - 抓取根目录中的所有文件/页面,但根本不抓取任何文件夹 或者我将必须明确指定每个文件夹..即
禁止:/ admin
禁止:/ this
..等等
感谢
NAT
答案 0 :(得分:2)
您的示例将阻止root中的所有文件。
没有"standard"方法可以轻松地执行您想要的操作而无需明确指定每个文件夹。
但是有些抓取工具do support extensions可以让您进行模式匹配。您可以禁止所有不支持模式匹配的机器人,但允许那些支持模式匹配的机器人。
例如
# disallow all robots
User-agent: *
Disallow: /
# let google read html and files
User-agent: Googlebot
Allow: /*.html
Allow: /*.pdf
Disallow: /