Question

我的网站有http://domain.com/blog作为根目录，而http://domain.com的所有流量都会重定向到http://domain.com/blog。

当我访问Google并执行site：domain.com时，这会导致问题，我看到根目录中标题为页面上的第一篇文章。如何阻止根被抓取，从而不会出现在搜索中？

在网站管理员工具中，我将该网站添加为http://domain.com，但我只在/ blog目录和其他静态网页上获取谷歌。这是对的吗？

我通常知道如何做到这一点，但这次网站有一个子目录作为预期的根目录，所以它有点不同。

有人可以验证这是否符合我的要求吗？

User-agent: *
Allow: /$
Disallow: /

Answer 1

Robots.txt不会阻止抓取工具抓取某些网页。 Robots.txt只是一个文本文件，其中包含一组指导原则，您要求抓取工具跟踪它并不会随时阻止抓取工具。如果您想阻止某个网页被抓取/访问 - 那么您必须阻止对该页面的所有访问，这包括不是抓取工具的其他用户。但是既然你已经让它重定向我就没有看到任何问题。此外，$不是统一标准，也不是允许（技术上）。尽量让它专注于特定的机器人。 Google和Bing认可了Allow关键字，但许多其他机器人却没有。

您当前的robots.txt也说明了这一点：不要抓取任何网页，而是抓取根

我建议您将此作为robots.txt

User-agent: *
Disallow: /

User-agent: googlebot
Disallow: /$

这告诉所有其他机器人，但Google不会抓取您的网页。它告诉谷歌抓取工具不要在root用户中抓取，但其他一切都是允许的。

Robots.txt：允许除根目录之外的所有内容

1 个答案: