如何配置robots.txt以允许一切?

时间:2010-11-25 12:16:18

标签: robots.txt

Google网站站长工具中的我的robots.txt显示以下值:

User-agent: *
Allow: /

这是什么意思?我对此知之甚少,所以寻求你的帮助。我想允许所有机器人抓取我的网站,这是正确的配置吗?

4 个答案:

答案 0 :(得分:142)

该文件将允许所有抓取工具访问

User-agent: *
Allow: /

这基本上允许所有用户代理(*)到站点的所有部分(/).

答案 1 :(得分:45)

如果您想允许每个机器人抓取所有内容,这是在robots.txt中指定它的最佳方式:

User-agent: *
Disallow:

请注意,Disallow字段的值为空,即according to the specification

  

任何空值表示可以检索所有网址。

您的方式(使用Allow: /代替Disallow:)也有效,但Allow不属于original robots.txt specification,因此并非所有机器人都支持(许多机器人)但是,受欢迎的人支持它,like the Googlebot)。也就是说,无法识别的字段必须被忽略,对于无法识别Allow的机器人,在这种情况下结果将是相同的:如果禁止任何内容被抓取(使用Disallow) ,一切都被允许被抓取 但是,正式(根据原始规范)它是无效记录,因为至少需要一个Disallow字段:

  

记录中至少需要有一个Disallow字段。

答案 2 :(得分:14)

我知道这是一个相当古老的问题,并且有一些非常好的答案。但是,为了完整起见,这是我的两分钱。

根据官方documentation,有四种方法,您可以允许机器人完全访问您的网站。

清洁:

指定@unor所提及的具有禁止段的全局匹配器。所以你的/robot.txt看起来像这样。

User-agent: *
Disallow:

黑客攻击:

创建一个没有内容的/robot.txt文件。默认情况下,所有类型Bots都允许全部使用。

我不在乎:

不要完全创建/robot.txt。哪个应该产生与上述两个完全相同的结果。

<丑>:

robots documentation for meta tags开始,您可以在网站上的所有网页上使用以下元标记,让Bots知道这些网页不应被编入索引。

<META NAME="ROBOTS" CONTENT="NOINDEX">

为了将此功能应用于整个网站,您必须为所有网页添加此元标记。此标记应严格放在页面的HEAD标记下。有关此元标记的更多信息here

答案 3 :(得分:7)

这意味着您允许每个(*)用户代理/抓取工具访问您网站的根目录(/)。你没事。