为了防止搜索引擎将您的网页编入索引,您必须在HTML中放置什么标记?
答案 0 :(得分:12)
将此添加到您不想索引的页面的HTML <head>
元素:
<meta name="robots" content="noindex, nofollow">
要覆盖整个网站,请在根文件夹中创建一个robots.txt
,其中包含以下行:
User-agent: * Disallow: /
答案 1 :(得分:7)
使用robots.txt文件限制索引编制:http://www.robotstxt.org/orig.html
答案 2 :(得分:1)
这里的其他答案是巧妙的错误。不幸的是,答案更复杂。
有些搜索引擎支持HTML noindex标记,但并非所有标记都支持。特别是Bing和谷歌,但其他一些人不会(here's my research on this)。根据搜索引擎是否支持无索引,您必须采用不同的方法。
对于这些,您需要在HTML中包含noindex标记,如下所示:
<meta name="robots" content="noindex, noodp, noarchive, noimageindex" />
请注意还有其他&#34;不 - &#34;那里的东西也是。我会把这些作为练习留给读者。
除此之外,您必须不阻止robots.txt文件中的Google和Bing,否则他们将永远不会看到您的noindex
元标记,它将会是无用。这很重要,因为Google和Bing认为noindex意味着&#34;根本不会显示这个结果,而且#34;虽然robots.txt阻止的链接意味着&#34;如果有人在这里链接,你可以展示它,但不要抓它。&#34;需要注意的是:如果谷歌或必应知道一个被机器人阻止的页面,他们会在结果中显示它而不知道其内容并且不会抓取它。 这就是为什么你必须不阻止Google和Bing使用机器人,而必须使用noindex阻止它们。
这些,你必须简单地阻止你的robots.txt文件。您也可以包含noindex标记,但由于页面永远不会被抓取,因此它不起作用。
我运营一个包含大约7M法律文件的网站。有些人在其中有个人信息,不能在搜索引擎中。我比任何人都更应该研究这个问题,而且robots.txt神话是如此强大令人沮丧。