Question

为了防止搜索引擎将您的网页编入索引，您必须在HTML中放置什么标记？

Answer 1

将此添加到您不想索引的页面的HTML <head>元素：

<meta name="robots" content="noindex, nofollow">

要覆盖整个网站，请在根文件夹中创建一个robots.txt，其中包含以下行：

User-agent: *
Disallow: /

另见：

Answer 2

使用robots.txt文件限制索引编制：http://www.robotstxt.org/orig.html

Answer 3

这里的其他答案是巧妙的错误。不幸的是，答案更复杂。

有些搜索引擎支持HTML noindex标记，但并非所有标记都支持。特别是Bing和谷歌，但其他一些人不会（here's my research on this）。根据搜索引擎是否支持无索引，您必须采用不同的方法。

对于那些支持noindex的人（Google，Bing）..

对于这些，您需要在HTML中包含noindex标记，如下所示：

<meta name="robots" content="noindex, noodp, noarchive, noimageindex" />

请注意还有其他＆＃34;不 - ＆＃34;那里的东西也是。我会把这些作为练习留给读者。

除此之外，您必须不阻止robots.txt文件中的Google和Bing，否则他们将永远不会看到您的noindex元标记，它将会是无用。这很重要，因为Google和Bing认为noindex意味着＆＃34;根本不会显示这个结果，而且＃34;虽然robots.txt阻止的链接意味着＆＃34;如果有人在这里链接，你可以展示它，但不要抓它。＆＃34;需要注意的是：如果谷歌或必应知道一个被机器人阻止的页面，他们会在结果中显示它而不知道其内容并且不会抓取它。这就是为什么你必须不阻止Google和Bing使用机器人，而必须使用noindex阻止它们。

对于那些不支持noindex的人（互联网档案馆，Alexa，Blekko，百度）......

这些，你必须简单地阻止你的robots.txt文件。您也可以包含noindex标记，但由于页面永远不会被抓取，因此它不起作用。

奖金部分

如果你想要奖励积分，你应该为Google和Bing设置sitemap.xml files，以便他们能够尽快发现你的内容（然后阻止它！）。
如果您有二进制内容（如图片，pdf等），则需要使用x-robots HTTP标头阻止这些内容。有关详细信息，请参阅my blog post！

为什么这是我写这样长答案的个人项目......

我运营一个包含大约7M法律文件的网站。有些人在其中有个人信息，不能在搜索引擎中。我比任何人都更应该研究这个问题，而且robots.txt神话是如此强大令人沮丧。

如果我不希望我的网站被搜索引擎编入索引，我该怎么办？

3 个答案:

另见：

对于那些支持noindex的人（Google，Bing）..

对于那些不支持noindex的人（互联网档案馆，Alexa，Blekko，百度）......

奖金部分

为什么这是我写这样长答案的个人项目......