robots.txt:user-agent:Googlebot不允许:/ Google仍在编制索引

时间:2011-01-22 16:50:12

标签: robots.txt googlebot google-index

查看本网站的robots.txt:

fr2.dk/robots.txt

内容为:

User-Agent: Googlebot
Disallow: /

那应该告诉谷歌不要将网站编入索引,不是吗?

如果为真,为什么该网站会出现在谷歌搜索中?

4 个答案:

答案 0 :(得分:5)

除了必须等待,因为Google的索引更新需要一些时间,请注意,如果您有其他网站链接到您的网站,仅使用robots.txt就不足以删除您的网站。

引用Google的支持页面"Remove a page or site from Google's search results"

  

如果页面仍然存在,但您不希望它显示在搜索结果中,请使用robots.txt阻止Google抓取该页面。请注意,通常情况下,即使robots.txt禁止访问该网址,如果我们在其他网站上找到其网址,我们仍可能会将该网页编入索引。但是,如果在robots.txt 中阻止该网页,那么该网页将不会为该网页编制索引。。

上述文件中还提到了一种可能的替代解决方案:

  

或者,您可以使用noindex元标记。当我们在网页上看到此标记时,即使其他网页链接到该网页,Google也会从搜索结果中完全删除该网页。如果您无法直接访问站点服务器,这是一个很好的解决方案。 (您需要能够编辑页面的HTML源代码。)

答案 1 :(得分:1)

如果你刚刚添加了这个,那么你将不得不等待 - 这不是即时的 - 直到Googlebot重新启动网站并看到robots.txt,该网站仍然会在他们的数据库中。

我怀疑它是否相关,但你可能想要将你的“代理人”改为“代理人” - 谷歌很可能不会因此而对案件敏感,但不能完全遵循标准。

答案 2 :(得分:0)

我可以确认Google不遵守机器人排除文件。这是我的文件,该文件是我在将此来源联机之前创建的:

{{3}}

文件的全部内容:

User-agent: *
Disallow:

User-agent: Google
Disallow: /

Google仍将其编入索引。

去年3月取消帐户后,我不再使用Google,并且从未将此网站添加到Yandex之外的网站管理员控制台中,这给我带来了两个假设:

  1. Google正在抓取Yandex
  2. Google不遵守机器人排除标准

我还没有记录日志,但是我会并且我的假设是,我会发现其中的Google蜘蛛行为异常。

答案 3 :(得分:-1)

您需要从Google搜索结果中删除网站(Google网站管理员工具)。

使用robots.txt,您只能获得"由于此网站的robots.txt而无法获得此结果的说明 - 了解详情。"