Question

Google网站站长工具中的我的robots.txt显示以下值：

User-agent: *
Allow: /

这是什么意思？我对此知之甚少，所以寻求你的帮助。我想允许所有机器人抓取我的网站，这是正确的配置吗？

Answer 1

该文件将允许所有抓取工具访问

User-agent: *
Allow: /

这基本上允许所有用户代理（*）到站点的所有部分（/).

Answer 2

如果您想允许每个机器人抓取所有内容，这是在robots.txt中指定它的最佳方式：

User-agent: *
Disallow:

请注意，Disallow字段的值为空，即according to the specification：

任何空值表示可以检索所有网址。

您的方式（使用Allow: /代替Disallow:）也有效，但Allow不属于original robots.txt specification，因此并非所有机器人都支持（许多机器人）但是，受欢迎的人支持它，like the Googlebot）。也就是说，无法识别的字段必须被忽略，对于无法识别Allow的机器人，在这种情况下结果将是相同的：如果禁止任何内容被抓取（使用Disallow），一切都被允许被抓取但是，正式（根据原始规范）它是无效记录，因为至少需要一个Disallow字段：

记录中至少需要有一个Disallow字段。

Answer 3

我知道这是一个相当古老的问题，并且有一些非常好的答案。但是，为了完整起见，这是我的两分钱。

根据官方documentation，有四种方法，您可以允许机器人完全访问您的网站。

清洁：

指定@unor所提及的具有禁止段的全局匹配器。所以你的/robot.txt看起来像这样。

User-agent: *
Disallow:

黑客攻击：

创建一个没有内容的/robot.txt文件。默认情况下，所有类型Bots都允许全部使用。

我不在乎：

不要完全创建/robot.txt。哪个应该产生与上述两个完全相同的结果。

<丑>：

从robots documentation for meta tags开始，您可以在网站上的所有网页上使用以下元标记，让Bots知道这些网页不应被编入索引。

<META NAME="ROBOTS" CONTENT="NOINDEX">

为了将此功能应用于整个网站，您必须为所有网页添加此元标记。此标记应严格放在页面的HEAD标记下。有关此元标记的更多信息here。

Answer 4

这意味着您允许每个（*）用户代理/抓取工具访问您网站的根目录（/）。你没事。

如何配置robots.txt以允许一切？

4 个答案:

清洁：

黑客攻击：

我不在乎：