Google网站站长工具中的我的robots.txt
显示以下值:
User-agent: *
Allow: /
这是什么意思?我对此知之甚少,所以寻求你的帮助。我想允许所有机器人抓取我的网站,这是正确的配置吗?
答案 0 :(得分:142)
该文件将允许所有抓取工具访问
User-agent: *
Allow: /
这基本上允许所有用户代理(*)到站点的所有部分(/).
答案 1 :(得分:45)
如果您想允许每个机器人抓取所有内容,这是在robots.txt中指定它的最佳方式:
User-agent: *
Disallow:
请注意,Disallow
字段的值为空,即according to the specification:
任何空值表示可以检索所有网址。
您的方式(使用Allow: /
代替Disallow:
)也有效,但Allow
不属于original robots.txt specification,因此并非所有机器人都支持(许多机器人)但是,受欢迎的人支持它,like the Googlebot)。也就是说,无法识别的字段必须被忽略,对于无法识别Allow
的机器人,在这种情况下结果将是相同的:如果禁止任何内容被抓取(使用Disallow
) ,一切都被允许被抓取
但是,正式(根据原始规范)它是无效记录,因为至少需要一个Disallow
字段:
记录中至少需要有一个Disallow字段。
答案 2 :(得分:14)
我知道这是一个相当古老的问题,并且有一些非常好的答案。但是,为了完整起见,这是我的两分钱。
根据官方documentation,有四种方法,您可以允许机器人完全访问您的网站。
指定@unor所提及的具有禁止段的全局匹配器。所以你的/robot.txt
看起来像这样。
User-agent: *
Disallow:
创建一个没有内容的/robot.txt
文件。默认情况下,所有类型Bots
都允许全部使用。
不要完全创建/robot.txt
。哪个应该产生与上述两个完全相同的结果。
从robots documentation for meta tags开始,您可以在网站上的所有网页上使用以下元标记,让Bots
知道这些网页不应被编入索引。
<META NAME="ROBOTS" CONTENT="NOINDEX">
为了将此功能应用于整个网站,您必须为所有网页添加此元标记。此标记应严格放在页面的HEAD
标记下。有关此元标记的更多信息here。
答案 3 :(得分:7)
这意味着您允许每个(*
)用户代理/抓取工具访问您网站的根目录(/
)。你没事。