如果我不希望我的网站被搜索引擎编入索引,我该怎么办?

时间:2010-08-10 00:44:20

标签: html

为了防止搜索引擎将您的网页编入索引,您必须在HTML中放置什么标记?

3 个答案:

答案 0 :(得分:12)

将此添加到您不想索引的页面的HTML <head>元素:

<meta name="robots" content="noindex, nofollow">

要覆盖整个网站,请在根文件夹中创建一个robots.txt,其中包含以下行:

User-agent: *
Disallow: /

另见:

答案 1 :(得分:7)

使用robots.txt文件限制索引编制:http://www.robotstxt.org/orig.html

答案 2 :(得分:1)

这里的其他答案是巧妙的错误。不幸的是,答案更复杂。

有些搜索引擎支持HTML noindex标记,但并非所有标记都支持。特别是Bing和谷歌,但其他一些人不会(here's my research on this)。根据搜索引擎是否支持无索引,您必须采用不同的方法。

对于那些支持noindex的人(Google,Bing)..

对于这些,您需要在HTML中包含noindex标记,如下所示:

<meta name="robots" content="noindex, noodp, noarchive, noimageindex" />

请注意还有其他&#34;不 - &#34;那里的东西也是。我会把这些作为练习留给读者。

除此之外,您必须阻止robots.txt文件中的Google和Bing,否则他们将永远不会看到您的noindex元标记,它将会是无用。这很重要,因为Google和Bing认为noindex意味着&#34;根本不会显示这个结果,而且#34;虽然robots.txt阻止的链接意味着&#34;如果有人在这里链接,你可以展示它,但不要抓它。&#34;需要注意的是:如果谷歌或必应知道一个被机器人阻止的页面,他们会在结果中显示它而不知道其内容并且不会抓取它。 这就是为什么你必须阻止Google和Bing使用机器人,而必须使用noindex阻止它们。

对于那些不支持noindex的人(互联网档案馆,Alexa,Blekko,百度)......

这些,你必须简单地阻止你的robots.txt文件。您也可以包含noindex标记,但由于页面永远不会被抓取,因此它不起作用。

奖金部分

  1. 如果你想要奖励积分,你应该为Google和Bing设置sitemap.xml files,以便他们能够尽快发现你的内容(然后阻止它!)。
  2. 如果您有二进制内容(如图片,pdf等),则需要使用x-robots HTTP标头阻止这些内容。有关详细信息,请参阅my blog post
  3. 为什么这是我写这样长答案的个人项目......

    我运营一个包含大约7M法律文件的网站。有些人在其中有个人信息,不能在搜索引擎中。我比任何人都更应该研究这个问题,而且robots.txt神话是如此强大令人沮丧。