Question

有没有办法阻止Google为网站编制索引？

Answer 1

的robots.txt

User-agent: *
Disallow: /

这将阻止所有搜索机器人进行索引。

了解更多信息，请参阅： http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=40360

Answer 2

我必须在这里添加我的答案，因为已接受的答案并没有真正触及问题。另请注意，阻止Google抓取并不意味着您可以将内容保密。

我的答案基于以下几个来源：https://developers.google.com/webmasters/control-crawl-index/docs/getting_started https://sites.google.com/site/webmasterhelpforum/en/faq--crawling--indexing---ranking

robots.txt文件控制抓取，但不进行索引！这两个是完全不同的动作，分开执行。某些页面可能已被抓取但未编入索引，有些页面甚至可能被编入索引but never crawled。非抓取页面的链接可能存在于其他网站上，这将使Google索引器跟随它，并尝试编制索引。

问题是关于收集有关页面数据的索引，因此可以通过搜索结果获得。可以阻止添加元标记：

<meta name="robots" content="noindex" />

或将HTTP标头添加到响应：

X-Robots-Tag: noindex

如果问题是关于抓取，那么您当然可以创建robots.txt文件并添加以下行：

User-agent: *
Disallow: /

抓取是为收集有关某个特定网站结构的信息而执行的操作。例如。您已通过Google网站站长工具添加了该网站。 Crawler会将其记录下来，并访问您的网站，搜索robots.txt。如果它没有找到任何内容，那么它将假定它可以抓取任何内容（拥有sitemap.xml文件也很重要，以帮助执行此操作，并指定优先级并定义更改频率）。如果找到该文件，它将遵循规则。成功抓取后，它会在某些时候为抓取的网页运行索引，但你无法判断... ...

重要：这意味着无论robots.txt如何，您的网页仍然可以在Google搜索结果中展示。

我希望至少有些用户能够阅读这个答案，并明确说明，因为了解实际情况至关重要。

Answer 3

您可以通过在apache conf中全局添加以下设置来禁用此服务器范围，或者可以在vhost中使用相同的参数来仅为特定的vhost禁用它。

标题设置X-Robots-Tag“noindex，nofollow”

完成此操作后，您可以通过验证返回的apache标头来测试它。

curl -I staging.mywebsite.com HTTP / 1.1 302发现日期：11月26日星期六 2016 22:36:33 GMT服务器：Apache / 2.4.18（Ubuntu）位置：/ pages / X-Robots-Tag：noindex，nofollow 内容类型：text / html;字符集= UTF-8

Answer 4

有多种停止爬网程序的方法，包括Google停止对您的网站进行爬网和编制索引。

通过标头在服务器级别

Header set X-Robots-Tag "noindex, nofollow"

通过robots.txt文件在根域级别

User-agent: *
Disallow: /

在页面级别通过漫游器元标记

<meta name="robots" content="nofollow" />

但是，我必须说，如果您的网站已经过时并且不存在页面/网址，那么您应该等待一段时间，Google会在下一次抓取中自动为这些网址取消索引-阅读https://support.google.com/webmasters/answer/1663419?hl=en

Answer 5

请记住，微软的Bing抓取工具尽管声称服从robots.txt，但并不总是如此。

我们的服务器统计信息表明他们有多个IP，这些IP运行不遵守robots.txt的抓取工具以及许多服务器。

Answer 6

我使用一个简单的aspx页面将谷歌的结果转发到我的浏览器使用假的'Pref'cookie，一次获得100个结果，我不希望谷歌看到这个中继页面所以我检查IP地址和如果它以66.249开头，那么我只是进行重定向。

如果您重视隐私并希望获得副本，请点击我的姓名。

我使用的另一个技巧是让一些调用页面的javascript在会话中设置一个标志，因为大多数（不是所有）web-bot都没有执行javascript所以你知道它是一个关闭javascript的浏览器或是一个不仅仅是一个机器人。

Answer 7

此外，您可以通过以下方式添加元机器人：

<head>
<title>...</title>
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
</head>

另一个额外的层是修改.htaccess，但你需要深入检查。

Answer 8

使用nofollow元标记：

<meta name="robots" content="nofollow" />

要在链接级别指定nofollow，请将值为nofollow的属性rel添加到链接：

<a href="example.html" rel="nofollow" />

Answer 9

有没有办法阻止Google为网站编制索引？

要阻止Google抓取，只需将以下head标记添加到每个页面的<meta name="googlebot" content="noindex, nofollow">：

{{1}}

阻止Google编制索引

9 个答案: