robots.txt与元机器人标签

时间:2016-07-04 16:18:05

标签: meta-tags robots.txt noindex

此处还有其他问题,如果您同时拥有两个元机器人会发生什么,我认为我理解发生了什么,直到我在Google网站站点网站上看到这个答案:https://support.google.com/webmasters/answer/93710

以下是它的说法:

  

重要!要使noindex元标记有效,页面不得   被robots.txt文件阻止。如果页面被a阻止   robots.txt文件,爬虫永远不会看到noindex标签,而且   页面仍然可以出现在搜索结果中,例如,如果是其他页面   链接到它。

这就是说,如果其他网站链接到我的网页,那么即使我的网页被robots.txt屏蔽,我的网页也会被编入索引。

这意味着阻止我的网页被编入索引的唯一方法是在robots.txt中允许它,并使用元机器人标记来阻止它被编入索引。这似乎完全违背了robots.txt的目的

1 个答案:

答案 0 :(得分:0)

robots.txt中的

Disallow用于阻止抓取(=机器人访问您的网页),而不是用于阻止索引(=指向您网页的链接) ,可能带有元数据,被添加到数据库中。

如果您阻止在robots.txt中对网页进行抓取,则表明机器人不应该访问该网页(例如,因为没有什么有趣的内容,或者因为它会浪费您的资源),而不是那个网址页面应该被视为秘密。

robots.txt的原始规范没有定义防止索引的方法。 Google seems to支持robots.txt中的Noindex字段,但仅作为尚未记录的“实验性功能”。