有没有办法阻止Google为网站编制索引?
答案 0 :(得分:104)
的robots.txt
User-agent: *
Disallow: /
这将阻止所有搜索机器人进行索引。
了解更多信息,请参阅: http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=40360
答案 1 :(得分:80)
我必须在这里添加我的答案,因为已接受的答案并没有真正触及问题。另请注意,阻止Google抓取并不意味着您可以将内容保密。
我的答案基于以下几个来源:https://developers.google.com/webmasters/control-crawl-index/docs/getting_started https://sites.google.com/site/webmasterhelpforum/en/faq--crawling--indexing---ranking
robots.txt
文件控制抓取,但不进行索引!这两个是完全不同的动作,分开执行。某些页面可能已被抓取但未编入索引,有些页面甚至可能被编入索引but never crawled。非抓取页面的链接可能存在于其他网站上,这将使Google索引器跟随它,并尝试编制索引。
问题是关于收集有关页面数据的索引,因此可以通过搜索结果获得。可以阻止添加元标记:
<meta name="robots" content="noindex" />
或将HTTP标头添加到响应:
X-Robots-Tag: noindex
如果问题是关于抓取,那么您当然可以创建robots.txt
文件并添加以下行:
User-agent: *
Disallow: /
抓取是为收集有关某个特定网站结构的信息而执行的操作。例如。您已通过Google网站站长工具添加了该网站。 Crawler会将其记录下来,并访问您的网站,搜索robots.txt
。如果它没有找到任何内容,那么它将假定它可以抓取任何内容(拥有sitemap.xml
文件也很重要,以帮助执行此操作,并指定优先级并定义更改频率)。如果找到该文件,它将遵循规则。成功抓取后,它会在某些时候为抓取的网页运行索引,但你无法判断... ...
重要:这意味着无论robots.txt
如何,您的网页仍然可以在Google搜索结果中展示。
我希望至少有些用户能够阅读这个答案,并明确说明,因为了解实际情况至关重要。
答案 2 :(得分:1)
您可以通过在apache conf中全局添加以下设置来禁用此服务器范围,或者可以在vhost中使用相同的参数来仅为特定的vhost禁用它。
标题设置X-Robots-Tag“noindex,nofollow”
完成此操作后,您可以通过验证返回的apache标头来测试它。
curl -I staging.mywebsite.com HTTP / 1.1 302发现日期:11月26日星期六 2016 22:36:33 GMT服务器:Apache / 2.4.18(Ubuntu) 位置:/ pages / X-Robots-Tag:noindex,nofollow 内容类型:text / html;字符集= UTF-8
答案 3 :(得分:1)
有多种停止爬网程序的方法,包括Google停止对您的网站进行爬网和编制索引。
通过标头在服务器级别
Header set X-Robots-Tag "noindex, nofollow"
通过robots.txt文件在根域级别
User-agent: *
Disallow: /
在页面级别通过漫游器元标记
<meta name="robots" content="nofollow" />
但是,我必须说,如果您的网站已经过时并且不存在页面/网址,那么您应该等待一段时间,Google会在下一次抓取中自动为这些网址取消索引-阅读https://support.google.com/webmasters/answer/1663419?hl=en
答案 4 :(得分:0)
请记住,微软的Bing抓取工具尽管声称服从robots.txt,但并不总是如此。
我们的服务器统计信息表明他们有多个IP,这些IP运行不遵守robots.txt的抓取工具以及许多服务器。
答案 5 :(得分:0)
我使用一个简单的aspx页面将谷歌的结果转发到我的浏览器使用假的'Pref'cookie,一次获得100个结果,我不希望谷歌看到这个中继页面所以我检查IP地址和如果它以66.249开头,那么我只是进行重定向。
如果您重视隐私并希望获得副本,请点击我的姓名。
我使用的另一个技巧是让一些调用页面的javascript在会话中设置一个标志,因为大多数(不是所有)web-bot都没有执行javascript所以你知道它是一个关闭javascript的浏览器或是一个不仅仅是一个机器人。
答案 6 :(得分:0)
此外,您可以通过以下方式添加元机器人:
<head>
<title>...</title>
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
</head>
另一个额外的层是修改.htaccess,但你需要深入检查。
答案 7 :(得分:0)
使用nofollow元标记:
<meta name="robots" content="nofollow" />
要在链接级别指定nofollow,请将值为nofollow的属性rel添加到链接:
<a href="example.html" rel="nofollow" />
答案 8 :(得分:0)
有没有办法阻止Google为网站编制索引?
要阻止Google抓取,只需将以下head
标记添加到每个页面的<meta name="googlebot" content="noindex, nofollow">
:
{{1}}