Question

查看本网站的robots.txt：

内容为：

User-Agent: Googlebot
Disallow: /

那应该告诉谷歌不要将网站编入索引，不是吗？

如果为真，为什么该网站会出现在谷歌搜索中？

Answer 1

除了必须等待，因为Google的索引更新需要一些时间，请注意，如果您有其他网站链接到您的网站，仅使用robots.txt就不足以删除您的网站。

引用Google的支持页面"Remove a page or site from Google's search results"：

如果页面仍然存在，但您不希望它显示在搜索结果中，请使用robots.txt阻止Google抓取该页面。请注意，通常情况下，即使robots.txt禁止访问该网址，如果我们在其他网站上找到其网址，我们仍可能会将该网页编入索引。但是，如果在robots.txt 中阻止该网页，那么该网页将不会为该网页编制索引。。

上述文件中还提到了一种可能的替代解决方案：

或者，您可以使用noindex元标记。当我们在网页上看到此标记时，即使其他网页链接到该网页，Google也会从搜索结果中完全删除该网页。如果您无法直接访问站点服务器，这是一个很好的解决方案。（您需要能够编辑页面的HTML源代码。）

Answer 2

如果你刚刚添加了这个，那么你将不得不等待 - 这不是即时的 - 直到Googlebot重新启动网站并看到robots.txt，该网站仍然会在他们的数据库中。

我怀疑它是否相关，但你可能想要将你的“代理人”改为“代理人” - 谷歌很可能不会因此而对案件敏感，但不能完全遵循标准。

Answer 3

我可以确认Google不遵守机器人排除文件。这是我的文件，该文件是我在将此来源联机之前创建的：

文件的全部内容：

User-agent: *
Disallow:

User-agent: Google
Disallow: /

Google仍将其编入索引。

去年3月取消帐户后，我不再使用Google，并且从未将此网站添加到Yandex之外的网站管理员控制台中，这给我带来了两个假设：

Google正在抓取Yandex
Google不遵守机器人排除标准

我还没有记录日志，但是我会并且我的假设是，我会发现其中的Google蜘蛛行为异常。

Answer 4

您需要从Google搜索结果中删除网站（Google网站管理员工具）。

使用robots.txt，您只能获得＆＃34;由于此网站的robots.txt而无法获得此结果的说明 - 了解详情。＆＃34;

robots.txt：user-agent：Googlebot不允许：/ Google仍在编制索引

4 个答案: