阻止Google编制索引

时间:2008-12-23 23:29:28

标签: google-index

有没有办法阻止Google为网站编制索引?

9 个答案:

答案 0 :(得分:104)

的robots.txt

User-agent: *
Disallow: /

这将阻止所有搜索机器人进行索引。

了解更多信息,请参阅: http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=40360

答案 1 :(得分:80)

我必须在这里添加我的答案,因为已接受的答案并没有真正触及问题。另请注意,阻止Google抓取并不意味着您可以将内容保密。

我的答案基于以下几个来源:https://developers.google.com/webmasters/control-crawl-index/docs/getting_started https://sites.google.com/site/webmasterhelpforum/en/faq--crawling--indexing---ranking

robots.txt文件控制抓取,但不进行索引!这两个是完全不同的动作,分开执行。某些页面可能已被抓取但未编入索引,有些页面甚至可能被编入索引but never crawled。非抓取页面的链接可能存在于其他网站上,这将使Google索引器跟随它,并尝试编制索引。

问题是关于收集有关页面数据的索引,因此可以通过搜索结果获得。可以阻止添加元标记:

<meta name="robots" content="noindex" />

或将HTTP标头添加到响应:

X-Robots-Tag: noindex

如果问题是关于抓取,那么您当然可以创建robots.txt文件并添加以下行:

User-agent: *
Disallow: /

抓取是为收集有关某个特定网站结构的信息而执行的操作。例如。您已通过Google网站站长工具添加了该网站。 Crawler会将其记录下来,并访问您的网站,搜索robots.txt。如果它没有找到任何内容,那么它将假定它可以抓取任何内容(拥有sitemap.xml文件也很重要,以帮助执行此操作,并指定优先级并定义更改频率)。如果找到该文件,它将遵循规则。成功抓取后,它会在某些时候为抓取的网页运行索引,但你无法判断... ...

重要:这意味着无论robots.txt如何,您的网页仍然可以在Google搜索结果中展示。

我希望至少有些用户能够阅读这个答案,并明确说明,因为了解实际情况至关重要。

答案 2 :(得分:1)

您可以通过在apache conf中全局添加以下设置来禁用此服务器范围,或者可以在vhost中使用相同的参数来仅为特定的vhost禁用它。

  

标题设置X-Robots-Tag“noindex,nofollow”

完成此操作后,您可以通过验证返回的apache标头来测试它。

  

curl -I staging.mywebsite.com    HTTP / 1.1 302发现日期:11月26日星期六   2016 22:36:33 GMT服务器:Apache / 2.4.18(Ubuntu)    位置:/ pages /   X-Robots-Tag:noindex,nofollow   内容类型:text / html;字符集= UTF-8

答案 3 :(得分:1)

有多种停止爬网程序的方法,包括Google停止对您的网站进行爬网和编制索引。

通过标头在服务器级别

Header set X-Robots-Tag "noindex, nofollow"

通过robots.txt文件在根域级别

User-agent: *
Disallow: /

在页面级别通过漫游器元标记

<meta name="robots" content="nofollow" />

但是,我必须说,如果您的网站已经过时并且不存在页面/网址,那么您应该等待一段时间,Google会在下一次抓取中自动为这些网址取消索引-阅读https://support.google.com/webmasters/answer/1663419?hl=en

答案 4 :(得分:0)

请记住,微软的Bing抓取工具尽管声称服从robots.txt,但并不总是如此。

我们的服务器统计信息表明他们有多个IP,这些IP运行不遵守robots.txt的抓取工具以及许多服务器。

答案 5 :(得分:0)

我使用一个简单的aspx页面将谷歌的结果转发到我的浏览器使用假的'Pref'cookie,一次获得100个结果,我不希望谷歌看到这个中继页面所以我检查IP地址和如果它以66.249开头,那么我只是进行重定向。

如果您重视隐私并希望获得副本,请点击我的姓名。

我使用的另一个技巧是让一些调用页面的javascript在会话中设置一个标志,因为大多数(不是所有)web-bot都没有执行javascript所以你知道它是一个关闭javascript的浏览器或是一个不仅仅是一个机器人。

答案 6 :(得分:0)

此外,您可以通过以下方式添加元机器人:

<head>
<title>...</title>
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
</head>

另一个额外的层是修改.htaccess,但你需要深入检查。

答案 7 :(得分:0)

使用nofollow元标记:

<meta name="robots" content="nofollow" />

要在链接级别指定nofollow,请将值为nofollow的属性rel添加到链接:

<a href="example.html" rel="nofollow" />

答案 8 :(得分:0)

  

有没有办法阻止Google为网站编制索引?

要阻止Google抓取,只需将以下head标记添加到每个页面的<meta name="googlebot" content="noindex, nofollow">

{{1}}
相关问题