应用错误收集

时间：2014-08-24 21:39:19

标签： seo meta-tags robots.txt

如果我希望搜索引擎遵循我的robots.txt规则，我是否应该删除机器人元标记有点困惑。

如果页面上存在漫游器元标记（索引，关注），搜索引擎会忽略我的robots.txt文件，并将robots.txt中指定的不允许的网址编入索引吗？

我之所以提出这个问题，是因为搜索引擎（主要是谷歌）仍然会从我的网站索引不允许的网页。

答案 0 :(得分：3)

如果搜索引擎的机器人尊重您的robots.txt，并且您不允许抓取/foo，则机器人永远不会抓取其网址路径以/foo开头的网页。因此机器人永远不会知道有meta - robots元素。

相反，这意味着如果您想禁止索引一个页面（通过meta - robots与noindex进行规范），您不应该禁止<您在robots.txt中对此页面进行了抓取。否则永远不会访问noindex，并且机器人认为抓取是禁止的，而不是索引。

答案 1 :(得分：0)

使用robots.txt，您可以告诉搜索引擎不要抓取某些页面-但这不会阻止它们将页面编入索引。如果抓取工具通过外部链接找到了robots.txt中不允许的页面，则可以对其进行索引。可以通过meta标签来避免这种情况。因此，robots.txt和元标记的工作方式有所不同。

爬网URL时会发现
机器人元标记和X-Robots-Tag HTTP标头。如果不允许页面在robots.txt文件中进行爬网，那么将找不到与索引或服务指令有关的任何信息，因此将忽略这些信息。如果必须遵循索引或服务指令，则不能禁止包含这些指令的URL进行爬网。